Meta 与滑铁卢大学的研究团队共同开发了一款名为 MoCha 的人工智能系统,能够生成包含同步语音和自然动作的完整角色动画。这一创新突破不同于以往仅聚焦于面部的动画生成模型,MoCha 可从多个摄像机角度渲染全身动作,涵盖嘴唇同步、手势表现,以及多个角色之间的互动。

提高口型同步准确度

MoCha 的演示重点展示了特写镜头和半特写镜头下的上身动作与手势同步生成。该系统的独特之处在于其引入的“语音-视频窗口注意”机制,这一机制成功解决了长期以来困扰 AI 视频生成的两个主要挑战:一是视频压缩时如何保持音频的全分辨率,二是在并行生成视频时避免唇部运动与音频不匹配的问题。 MoCha 的创新之处在于,通过限制每帧访问特定音频数据窗口,模拟了人类的发音方式——嘴唇运动与即时声音密切相关,而肢体语言则依据更广泛的文本模式展现。通过在每帧音频前后添加标记,MoCha 能有效实现更平滑的过渡和更精准的嘴唇同步。 Meta 推出 MoCha AI 系统:可生成同步语音与动作的角色动画

MoCha 根据文本描述生成带有面部、手势和嘴唇动作的逼真视频。 为了构建该系统,研究团队使用了300小时精心筛选的视频内容,并结合基于文本的视频序列来扩展表现和互动的可能性。尤其是在多角色场景下,MoCha 展现了其强大的能力,用户只需简单地定义角色一次,便可通过标签(如“人物1”或“人物2”)在不同场景中轻松调用,无需重复描述。 ## 管理多个角色

在150种不同场景的测试中,MoCha 在口型同步与自然动作的质量上,均超过了同类系统。独立评估人员一致认为该系统生成的视频高度逼真,表现出了前所未有的精度与自然度。 Meta 推出 MoCha AI 系统:可生成同步语音与动作的角色动画

研究人员开发了一个提示模板,让用户无需重复描述即可引用特定字符。 MoCha 的开发使其在多个应用领域展现出巨大潜力,尤其在数字助理、虚拟化身、广告与教育内容等领域。尽管 Meta 尚未透露该系统是否会开源,或仍处于研究原型阶段,但这一技术的推出无疑为 AI 驱动的视频生成开辟了新的篇章。 在人工智能视频技术竞争日益激烈的背景下,MoCha 的发布尤为引人注目。Meta 最近也推出了 MovieGen 系统,而 TikTok 母公司字节跳动则在研发自己的人工智能动画工具,包括 INFP、OmniHuman-1和 Goku,显示出社交媒体公司在这一领域的积极布局。