阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

阿里通义实验室近日发布了一款名为 “OmniTalker” 的新型数字人视频生成大模型。这一创新模型的核心在于其能够通过上传一段参考视频，实现对视频中人物的表情、声音和说话风格的精准模仿。相较于传统的数字人制作流程，OmniTalker 显著降低了制作成本，同时提升了生成内容的真实感和互动体验，满足了广泛的应用需求。

阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

OmniTalker 的使用十分简便，用户只需在平台上上传一段参考视频，就能生成与之同步的音频和视频内容。目前，该项目已在魔搭社区和 HuggingFace 等平台开放体验，并提供了多种模板供用户自由使用，完全免费。为了让人们更直观地感受到这一技术的强大，阿里通义实验室展示了几段示例视频，观众几乎无法分辨出视频中的人物是由 AI 生成的还是实拍的，这让人感到震撼。

阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

该模型的研发背景源于近年来语言大模型的迅猛发展，虚拟主播和虚拟助手的应用越来越广泛。然而，以往的文本驱动数字人生成研究相对较少，且传统方法通常采用级联流水线的方式，容易导致音画不同步、说话风格不一致等问题。OmniTalker 通过引入双分支 DiT 架构，能够同时从文本和参考视频中生成同步的语音和视频，从而克服了这些技术瓶颈。

在模型结构方面，OmniTalker 的设计由三大核心部分构成。首先，模型能够提取音频特征和视觉特征，确保两者在时间上的完美同步;其次，采用多模态特征融合模块，提升了音频和视频的整合效果;最后，经过预训练的解码器能够高效将合成的音视频特征转换为原始格式，保证输出的高质量。

通过实验数据的对比，OmniTalker 在音频生成和视觉效果方面都表现出色，显示出更低的错误率和更高的声音相似度，进一步证明了其在零样本条件下的强大能力。

项目页:https://top.aibase.com/tool/omnitalker

论文:https://arxiv.org/abs/2504.02433v1

体验页:https://huggingface.co/spaces/Mrwrichard/OmniTalker

七个圈AIGC破圈俱乐部欢迎您！

9.2万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.6万用户在看

阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

最近更新

文章目录

阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

9.2万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.6万 用户在看

阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

最近更新

文章目录

阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

9.2万用户在看

7.6万用户在看

6.2万用户在看

5.6万用户在看