Fish Speech是一款由fishaudio开发的全新文本转语音工具,它不仅完美支持中文、英语和日语,而且在语音处理上的能力接近人类水平,可以说是你私人语音助手的不二之选。
要点:
😊 完美支持中英日三种语言,语音处理接近人类水平
😊 支持语音克隆,只需提供一段参考语音,即可迅速完成克隆
😊 对显存要求极低,仅需4GB,支持多种不同的语音生成模型

Fish Speech模型的厉害之处在于,它使用了大约十五万小时的三语数据进行训练,特别是在中文方面的表现,简直是无可挑剔。作为一个亿级参数的模型,它设计得既高效又轻量,这意味着你可以在自己的个人设备上轻松运行和微调,随时随地享受语音转换的便捷。
支持中文
目前,库里的可供选择的声音多数是动漫人物的声音,AIbase输入一段文字测试,发现有的动漫人物语速偏慢,如果要用到视频里,还需要删除中间停顿太长的地方。真人的声音有丁真,特朗普和孙笑川等,不过以防万一还是不要用其他真人的声音比较好。想用真人声音的,可以考虑创建自己的声音。
以下是AIbase的测试效果:
更让人兴奋的是,Fish Speech采用了Flash-Attn算法,这一算法专为处理大规模数据而设计,以其高效性、准确性和稳定性著称。这不仅显著提升了TTS技术的性能,也让你在使用过程中享受到了前所未有的流畅体验。
支持英文
而且,Fish Speech的语音克隆能力也是一大亮点。你只需提供一段参考语音,它就能迅速进行语音克隆,无需经过繁琐的训练过程。此外,它对显存的需求极低,仅需4GB,推理速度快,这些都极大地优化了用户体验。
支持日文
当然,Fish Speech的强大远不止于此。Fish Speech支持多种不同的语音生成模型,包括但不限于:
ViTS2:基于变分推理的文本到语音模型。
Bert-VITS2:结合BERT模型的变分推理文本到语音模型。
MQTTS:基于量化技术的文本到语音模型。
GPT Fast:快速生成语音的GPT模型。
GPT-SoVITS:结合GPT和SoVITS技术的文本到语音模型。
每一种模型都有其独特的优势,满足不同用户的需求。
总的来说,Fish Speech是一款创新、高效、轻量的文本转语音工具。它不仅能够成为你的私人语音助手,还能为你的创意项目提供强大的语音支持。如果你对语音技术感兴趣,或者正在寻找一个无需繁琐训练、快速克隆的TTS解决方案,那么Fish Speech绝对值得一试。
官网地址
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则