内容持续更新中
Hallo允许通过单张图像和音频输入生成唱歌和说话的视频,同时还能控制视频中人物的表情和姿态。这项技术基于扩散模型的层次化音频驱动视觉合成方法,旨在提升语音输入与生成动画之间的对齐精度,包括嘴唇、表情…