阿里巴巴团队发布了肖像视频生成框架 EMO,能够生成具有丰富面部表情和头部姿势的声音肖像视频。EMO利用参考网络从参考图像和动作帧中提取特征,通过预训练的音频编码器处理声音并嵌入,结合多帧噪声和面部区域掩码生成视频。实验结果表明,EMO在表现力和真实感方面优于现有方法。该模型潜在应用方向将提高数字媒体和虚拟内容生成技术水平,但也可能被用作犯罪工具。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则