人工智能语音领域再迎重大突破!Hume AI近日推出了一款名为OCTAVE的全新文本与语音引擎,该引擎能够仅凭简单的文本描述或一段5秒的语音录音,即可生成或克隆出逼真的语音和人格特质,为虚拟角色和人机交互带来了无限可能。

OCTAVE的强大之处在于,它不仅能够生成自然的语音,还能精确地模仿说话者的性别、年龄、口音、情绪语调以及职业特定的说话风格。这使得它能够创造出高度个性化的虚拟角色,并让用户感受到更加真实的人机交互体验。

更令人惊艳的是,OCTAVE能够在毫秒级别内完成语音生成,实现了真正的实时对话,并且还允许用户实时动态地调整生成内容。这意味着,用户可以与虚拟角色进行流畅自然的实时对话,并根据需要随时改变其说话风格和内容。

据了解,OCTAVE结合了Hume AI自研的EVI2模型以及OpenAI的语音引擎、Elevenlab的TTS语音设计和Google Deepmind的NotebookLM等多个系统的优势,这使得它在语音生成和理解方面都表现出了卓越的性能。

OCTAVE还支持多个虚拟角色的语音生成,每个角色都可以拥有完全不同的语音风格、情绪和口音,甚至可以生成完整的播客内容。这为内容创作者提供了极大的便利,让他们能够轻松地创作出多样化的音频内容。

此外,OCTAVE能够生成丰富多样的情绪语音,包括愤怒、兴奋、悲伤、平静等。它能够捕捉微妙的语音变化,并通过不同情绪语调来增强自然交互感,更好地表现复杂的情绪。在理解文本语义的基础上,OCTAVE生成的语音与当前主流语言模型(如GPT系列)的语言理解能力相当,确保了生成的语音内容准确且符合语境。

官网