字节跳动加入AI视频大战

经济观察网 记者 任晓宁 9月24日下午,字节跳动旗下火山引擎发布了两款AI视频模型,这意味着字节跳动正式加入了AI视频大战。

AI视频是当下互联网大厂和创业公司集体发力的领域。8月底,AI创业公司MiniMax推出视频模型。9月19日,阿里巴巴也发布了通义万相视频模型。据经济观察网不完全统计,仅在国内,过去4个月时间便有超过10家公司推出了AI视频产品。

相较其他公司,字节跳动的视频模型发布时间较晚。火山引擎总裁谭待接受经济观察网在内媒体采访时说,字节跳动不一定非要抢第一,他们对模型的认知是,这是一个能影响未来10年、20年的长远技术,所以希望推出的模型质量是经过考验的。

字节为何入局

时至9月,AI视频模型已经不再罕见,甚至成了AI创业公司必选的赛道。为什么这些公司如此重视AI视频?谭待说,视频的消费在当下已经成为主流,无论是娱乐、电商还是本地生活,各行各业都离不开视频,这意味着视频是用户的核心需求。

此前MiniMax创始人闫俊杰接受经济观察网采访时也有类似观点。他说,为了让产品能有非常高的用户覆盖度和非常深的用户使用度,唯一的办法就是输出动态的视频内容,而不是仅输出基于文字的文本内容。

相比其他公司,拥有抖音和剪映的字节跳动在视频领域具有优势,其主要优势在于视频内容积累。一位AI视频创业公司创始人告诉经济观察网,他们训练视频的数据主要是海外开源数据、AI合成数据,以及向版权方购买的数据。

谭待提到,抖音和剪映在视频领域的业务理解和技术积累,对于豆包视频模型是一个很大的加分项。同时,由于豆包是全体系的模型,目前包括文本、音乐、视频、图片等多个模态,因此能更好地理解用户的指令。

他认为,豆包视频模型与其他视频模型的不同之处在于,它可以生成多个主体运动的复杂交互画面,也可以保证多镜头切换的内容一致性,这两项能力能让AI视频看起来不那么像PPT版视频。

AI视频仍不尽如人意

虽然入局者众多,但从AI视频的效果和ai视频制作简易度来看,这个行业目前发展并不算快。

北京国际电影节上有一个获奖的2分钟AI视频,主创团队提到,他们3个人花了十几天时间做这个视频。当前创作者制作AI视频,都要经过一个较为复杂的流程,先写文字脚本,再把脚本拆分为多个场景,为每个场景写像咒语一样的提示词,让每个场景生成多张图,一般每张图需要生成几十次,才能得到自己想要的结果。

一位创作者说:“做AI视频就像玩抽卡游戏,尝试几百次才能试出好结果。”

主流的AI视频工具,一次能生成4—10秒左右的视频片段。生成一段2分钟的完整故事,需要使用多段视频拼接。但在当前算力条件下,创作者往往需要排队超过10分钟,才能使用ai视频工具。除了专业创作者,没有人有耐心制作AI视频。

AI视频当下并不是一个大市场。头豹研究院的数据显示,预计到2026年,中国AI视频市场规模将增长至92.79亿元。

上述AI视频创业公司创始人说,目前AI视频行业处于极早期,现在仍在新手保护期的阶段,用户对产品性能有很高的容忍度。最终哪家公司能跑到最后,还要看它的产品能力能不能获得用户认可。在这个维度上,互联网大厂和AI创业公司都处于同一起跑线。