Hume AI发布全能语音引擎OCTAVE：文本秒变真人声，克隆人格特征

人工智能语音领域再迎重大突破!Hume AI近日推出了一款名为OCTAVE的全新文本与语音引擎，该引擎能够仅凭简单的文本描述或一段5秒的语音录音，即可生成或克隆出逼真的语音和人格特质，为虚拟角色和人机交互带来了无限可能。

OCTAVE的强大之处在于，它不仅能够生成自然的语音，还能精确地模仿说话者的性别、年龄、口音、情绪语调以及职业特定的说话风格。这使得它能够创造出高度个性化的虚拟角色，并让用户感受到更加真实的人机交互体验。

更令人惊艳的是，OCTAVE能够在毫秒级别内完成语音生成，实现了真正的实时对话，并且还允许用户实时动态地调整生成内容。这意味着，用户可以与虚拟角色进行流畅自然的实时对话，并根据需要随时改变其说话风格和内容。

据了解，OCTAVE结合了Hume AI自研的EVI2模型以及OpenAI的语音引擎、Elevenlab的TTS语音设计和Google Deepmind的NotebookLM等多个系统的优势，这使得它在语音生成和理解方面都表现出了卓越的性能。

OCTAVE还支持多个虚拟角色的语音生成，每个角色都可以拥有完全不同的语音风格、情绪和口音，甚至可以生成完整的播客内容。这为内容创作者提供了极大的便利，让他们能够轻松地创作出多样化的音频内容。

此外，OCTAVE能够生成丰富多样的情绪语音，包括愤怒、兴奋、悲伤、平静等。它能够捕捉微妙的语音变化，并通过不同情绪语调来增强自然交互感，更好地表现复杂的情绪。在理解文本语义的基础上，OCTAVE生成的语音与当前主流语言模型（如GPT系列）的语言理解能力相当，确保了生成的语音内容准确且符合语境。

官网

搜索