阿里巴巴集团的科学家们推出了 VACE,这是一种旨在统一处理广泛视频生成和编辑任务的通用人工智能模型。
VACE 的核心是增强的扩散 Transformer 架构,其创新之处在于“视频条件单元”(VCU)这一新型输入格式。VCU 将文本提示、参考图像或视频序列以及空间蒙版等多种模态输入提炼为统一的表示,并通过专门的机制协调不同输入,避免冲突。
概念解耦实现精细控制
VACE 采用“概念解耦”技术将图像分割为可编辑和固定区域,实现对修改内容和保留内容的精细控制。视觉信息通过遮罩划分为“活性”和“非活性”区域,并嵌入共享特征空间,与文本输入结合。为保证视频帧间一致性,特征映射到与扩散 Transformer 结构匹配的潜在空间,时间嵌入层确保模型理解序列的时间连贯性,注意力机制则关联不同模态和时间步的特征。
VACE 支持文本到视频生成、基于参考的视频合成、视频到视频编辑以及基于遮罩的目标编辑等四大核心任务,应用场景广泛,包括人物移除、动画角色生成、物体替换和背景扩展等。
模型训练与评估
研究团队首先专注于绘画和涂鸦以支持文本到视频,然后逐步加入参考图像并转向更高级的编辑任务。训练数据来源于互联网视频,经过自动过滤、分割和深度、姿态注释增强。为了评估 VACE 的性能,研究人员创建了一个包含480个案例、涵盖12个视频编辑任务的基准。实验结果表明,VACE 在定量指标和用户研究方面均优于专门的开源模型,但在参考到视频的生成方面仍与 Vidu 和 Kling 等商业模型存在差距。
阿里巴巴的研究人员认为 VACE 是通往通用、多模态视频模型的重要一步,未来将通过更大的数据集和更多算力进行扩展。该模型的部分代码将在 GitHub 上开源。VACE 与阿里巴巴近期发布的一系列大型语言模型(如 Qwen 系列)共同构成了其宏大的人工智能战略布局。包括字节跳动在内的其他中国科技巨头也在积极发展视频人工智能技术,部分成果已赶超西方同类产品。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则