语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款 1300亿参数的超大型语音模型,引发业界高度关注。这款被誉为“统治级”的强大模型,是业界首个集语音理解与生成控制于一体的产品级开源实时语音对话系统,其功能的全面性和技术的先进性令人惊叹,预示着语音AI技术发展或将“一步到位”迈向新高度。

这款开源模型最核心的亮点在于其 一体化设计 和 强大的控制能力。它不仅能够精准理解用户语音指令,还能高度灵活地控制语音生成过程,实现前所未有的个性化语音交互体验。

语音AI“一步到位”!阶跃开源 130B 统治级语音模型,实时对话+情感克隆,炸裂来袭

在 语言支持 方面,这款模型展现出惊人的多语言能力, 中文、英文、日语 流畅切换,轻松应对跨语言交流场景。 更令人惊喜的是,它还深度支持 方言,目前已覆盖 粤语、四川话 等主流方言,让语音交互更贴近生活,更具人情味。

除了语言,这款模型还能精细控制 语音情感,用户可以自由设定语音的 情感基调,例如 开心、悲伤 等,让AI的表达更富感染力。 语速和韵律风格 也可随心调整,满足不同场景下的表达需求。 甚至更进一步,它还支持 RAP 和哼唱 等更具创造力的语音形式,为内容创作带来无限可能。

语音AI“一步到位”!阶跃开源 130B 统治级语音模型,实时对话+情感克隆,炸裂来袭

更令人震撼的是,这款模型还具备 语音克隆 功能,这意味着用户可以利用这项技术,创造出极具个性化的语音助手,甚至实现声音的“复刻”与“传承”。

阶跃此次开源如此强大的语音模型,无疑将极大地推动整个行业的技术进步和应用创新。 它不仅大幅降低了语音AI技术的应用门槛,更预示着未来语音交互将变得更加智能、自然、个性化,真正融入人们的日常生活。

项目地址