Luma AI发布了一款名为Dream Machine的AI视频生成模型,拥有强大的生成效果和快速的生成速度。该模型可以根据图片文字提示词生成逼真的视频

智东西 6 月 13 日消息,今天,美国 3D 计算机视觉创企 Luma AI 发布了一个名为 Dream Machine 的 AI 模型。这一模型具备强大的文生视频图生视频功能,画面极为逼真,人物表情丰富,2 分钟内就能完成 5 秒视频生成。

Dream Machine 最让人眼前一亮的特点是,它所生成的视频中包含极为真实的摄像机运动轨迹、自然的光影变化以及较好的一致性。

下方视频是 Luma AI 放出的官方 demo 之一,内容是第一视角的废墟探险画面。随着探险者进入室内,画面的曝光程度出现了变化,探险者的手电光线也有自然的晃动,十分符合真实情况。摄像机的视角就好像废墟探险者常常佩戴使用的运动相机拍摄的一样,让人有身临其境的体验。

此外,与 Sora 等其它大多数视频生成模型不同,Dream Machine 目前可在 Luma AI 官网直接免费使用,免费用户有每月 30 次的生成额度,这已经可以完美满足大部分人的非商用需求了。

不过刚刚发布时,有大量用户涌入 Luma 官网,争相体验 Dream Machine 的视频生成效果。这导致 Luma 官网服务器一度宕机,几乎无法正常生成视频,直到目前才有所缓解。

参与 Dream Machine 早期 beta 测试的人员称赞该系统能够忠实地渲染指定的对象、角色、动作和环境,同时保持流畅的运动和连贯的叙事。

 

Dream Machine比Sora更真实!免费试用火热进行中!

▲官网公告:生成需要 120 秒。然而由于需求激增,您的请求可能需要排队。

 

Luma AI 成立于 2021 年,总部位于旧金山。Luma 此前是一家专注于 3D 内容生成的计算机视觉初创公司,已经完成两轮融资,曾获英伟达和硅谷顶级风投公司 Andreessen Horowitz(简称 a16z)投资,投后估值约 2-3 亿美元。Luma AI 之前的明星产品之一是文本转 3D 模型 Genie 1.0,它能在 10 秒内根据文本内容完成多种格式的 3D 建模。

▲ Genie 1.0 宣传片

一、Dream Machine 生成效果实测,速度极快质量不稳定

Dream Machine 一经发布就瞬间爆火,大排长龙,生成一次视频大约要排队 15 分钟。不过在热度稍减后,智东西终于有机会对 Dream Machine 展开大量测试,获取第一手的体验报告。

 

Dream Machine比Sora更真实!免费试用火热进行中!

Dream Machine 的使用体验极为便捷,在简单的注册流程后,用户便可以直接进入视频生成界面。Dream Machine 允许两种类型的提示词图片 + 文字以及纯文字提示词。若勾选输入框右下角的 “Enhance prompt” 选项,还能自动优化用户输入的提示词并实现更好的生成效果。

 

官网的输入框下方提供了许多示例提示词,于是智东西首先使用了这些提示词进行测试,我们使用的其中一条提示词是 “Low-angle shot of a majestic tiger prowling through a snowy landscape, leaving paw prints on the white blanket (低角度拍摄一只威严的老虎在雪地中潜行,留下爪印在白色的雪毯上)”。

Dream Machine 的视频生成速度确实没有夸大,除去排队的时间,这段 5 秒钟的视频在不到 2 分钟的时间里就完成了,但效果却不尽如人意。

在 Dream Machine 生成的视频中,提示词里关于拍摄角度的指令完全被忽略了,视频采用的是鸟瞰而非低角度拍摄。同时,老虎在雪地上的脚印也几乎不可见。此外,老虎的跑动方式和尾巴的甩动都不太符合物理规律。老虎身上的花纹随着镜头拉远不断变化,一致性也比较一般。Dream Machine 这是要翻车的节奏?

为进一步确认 Dream Machine 的实际生成效果,智东西使用 Luma AI 官方账号转发的一位专业创作者的提示词进行二次测试。这则提示词是图片 + 文字的形式,文字内容是 “Girl gazes with wonder(女孩带着惊奇的目光凝视)”,而输入的图片则是荷兰画家约翰内斯 · 维米尔的名画《戴珍珠耳环的少女》。我们还特别生成了两个版本,一个勾选了 “Enhance prompt”,另一个没有勾选。

▲未勾选 Enhance prompt 功能

▲勾选 Enhance prompt 功能

本次生成的速度依旧很快。生成结果表明,是否勾选 Enhance prompt 功能对 Dream Machine 的生成效果有很大的影响。在未勾选这一功能的第一个生成结果中,人物几乎没有任何变化,视频仅仅是将镜头拉近了。而在勾选了这一功能的第二个生成结果中,画中的人物才真正动起来了。随着视频里人物的移动,她面部和头巾上的光线和阴影都有比较自然的变化。而服饰上的纹路在人物移动的过程中基本保持了一致。

然而这一生成结果也并非毫无破绽。视频中人物的面部在前几帧过后便出现了变化,五官和妆容都与画中人物有所差异。虽然模型知道人物应该佩戴对称的一副耳环,但由模型生成的那一侧耳环看上去并不像是珍珠耳环,没有原画中珍珠的光泽和质感,形状和颜色也略有区别。

▲ Luma AI 官方转发的视频

与 Luma AI 官方转发的视频相比,尽管智东西使用了相同的提示词,但我们测试中生成的这一条视频中人物的表情和神态并不像官方视频中那般丰富。不过总体来看,这两个视频生成的效果都是比较好的,基本还原了原画中人物的着装,光影和移动也比较自然流畅,仅仅在一致性上有一些小问题。

作为目前视频生成模型中的顶流,Sora 在 Dream Machine 发布后便迅速被各路网友拉来和 Dream Machine 比较。智东西使用了一则 OpenAI 官方放出的 Sora Demo 中的提示词,对两个模型的表现进行了相对严格的平行对比。

 

Dream Machine比Sora更真实!免费试用火热进行中!

▲本次生成中使用的提示词

 

▲ Dream Machine 生成结果

▲ Sora 官方 demo

对比之下,Dream Machine 生成的效果和 Sora 还存在一定差距。画面中的主要人物表情神态都不太自然,”AI 味儿 ” 比较重。人物的右手形态畸形,而左腿在行走的过程中还出现了类似 ” 穿模 ” 的问题。而模型生成画面背景中的人物时也出现了幻觉,背景中的有一位骑着自行车的男士在移动过程中变为了几位并排行走的人。Dream Machine 唯一比较可圈可点是在人物走过路面积水时,生成了比较真实的倒影和涟漪,且生成的视频速度比较符合真实情况。

不过,拿 OpenAI 发布的官方 demo 和 Dream Machine 的用户实测效果比较确实不太公平。AI 公司们一直有美化 demo 效果的 ” 传统 “,模型的实际生成效果和 demo 总是存在一定差距的。作为免费模型,Dream Machine 用户实测时大量的生成需求可能会对原本就不富余的算力带来冲击,影响实际生成效果。此外,超长的提示词可能也会给模型带来一定压力。智东西用 ChatGPT 总结了这一 demo 的提示词,再给 Dream Machine 一次机会。

 

Dream Machine比Sora更真实!免费试用火热进行中!

▲精简后的提示词

 

▲勾选 Enhance prompt 的生成结果

▲未勾选 Enhance prompt 的生成结果

在精简提示词后,Dream Machine 的生成效果确实得到了一定改进。勾选 Enhance prompt 的生成结果中,人物面部的光线随着路边霓虹灯的变化而变化,而她的神态也基本符合提示词中的描述,视频运镜颇有赛博朋克风的大片的感觉。美中不足的是背景中的人物仍然存在一些形变,霓虹灯牌上的文字也在人物经过时产生了一些变化。未勾选 Enhance prompt 的生成结果在真实性上竟然有一定程度的提高,但在镜头晃动时面部的一致性受到轻微的影响。

综合以上测试结果,Dream Machine 作为一款免费的视频生成工具还是可圈可点的。它在生成速度上无可挑剔,支持多模态输入,还能自动优化输入的提示词。在多次测试后我们发现,使用 Dream Machine 生成视频时,使用图像 + 文字的提示词往往比使用纯文字提示词的效果更好,在生成结果的真实性和对提示词的遵循程度上都会有明显的提升。

但在处理较长的提示词时,这台 ” 造梦机 ” 也会面临卡壳的情况。我们在测试时,长提示词的等待时间要显著长于普通长度的提示词,最终的生成效果也会打折扣。若 Dream Machine 不受公测期间可能的算力短缺问题,或许它真的能实现与 Luma AI 官方 demo 中类似的效果。

二、各路网友大显神通,Dream Machine 获高度评价

有不少网友和专业创作者也上手测试了 Dream Machine,并将它们与其它视频生成模型进行比较。

下方这位网友将 Dream Machine 与 Runway 和 Pika 这两个视频生成模型进行对比。这位网友认为,Luma AI 的 Dream Machine 在大多数镜头中完胜。

 

Dream Machine比Sora更真实!免费试用火热进行中!

下图中的网友则认为 Dream Machine 在运动和一致性上表现很好,并且让普通消费者也能体验到 Sora 般的质量。这位网友拼接了多个 Dream Machine 生成的视频并配上音乐,最终做出了一条 3 分多钟的 AI 生成 MV。

 

 

Dream Machine比Sora更真实!免费试用火热进行中!

在专业创作者的调教下,Dream Machine 确实发挥出了更好的水平。这一视频中的画面梦幻而又怪诞,与音乐的风格十分契合。

 

不少网友大开脑洞,找到了 Luma AI 官方也没想到的使用场景。有位网友将表情包输入 Dream Machine 然后生成视频。这一创意也获得 Luma AI 官方转发,称 Dream Machine 摇身一变成为名副其实的 Meme Machine(表情包制造机)。

还有一位网友将自己一家人 30 年前在冲绳旅行时的照片发给 Dream Machine,而生成的视频让这张 30 年前的照片也有了如今动态照片般的效果。

Dream Machine 还能生成多种风格的视频。有一位网友将自己孩子最喜欢的毛绒玩具变成了动画,还有一位专业创作者利用 Dream Machine 创作了一条一分钟的动画短片。

在上方的视频中,Dream Machine 的一致性再次得到了验证,视频里的卡通人物主角在不同的场景下外貌都基本一致。此外,视频中人物表情生动,富有感染力,画面中的其它元素相对稳定,各种动作和人物与场景的互动也基本符合物理规律。

来自美国科技媒体 Tom ’ s Guide 的记者 Dave LeClair 在观看了下方这则 demo 后称,Luma AI 发布的视频示例中的摄像机运动看起来非常逼真。如果不告诉他这些视频是 Dream Machine 制作的,他会毫不犹豫地相信视频是用高端摄像机在轨道上拍摄的。

不过美国媒体 VentureBeat 也指出,作为免费的视频生成工具,Dream Machine 将不可避免地面临滥用的风险。Luma AI 在其网站上向所有人免费提供 Dream Machine 的使用权,并计划发布 API 接口和主流创作软件的插件。这种开放的方式确实可以让 Luma AI 抢占先机,建立充满活力的创造者和开发者社区,但相关的治理框架或许无法赶上科技发展的速度。在创新和责任之间找到适当的平衡将成为整个行业和社会面临的重要挑战。

三、Luma AI 曾获 a16z 和英伟达投资,创始人和高管中都有华人

Luma AI 在发布 Dream Machine 之前并不是一家知名的 AI 企业。它成立于 2021 年,总部位于加利福尼亚州旧金山。Luma 先前专注于开发 AI 技术,以 3D 格式捕捉和体验现实世界。

在 Dream Machine 之前,Luma 的主打产品是 Luma AI 移动应用程序,它允许用户使用手机相机捕捉物体和场景的空间 3D 模型。该应用程序使用神经渲染技术,如神经辐射场(NeRF),生成具有照片级质量的高细节 3D 模型。

3D 捕捉可以作为 3D 视频分享,导出为 3D 对象,或嵌入到网站和应用程序中。Luma AI 服务于需要高级 3D 和视觉技术的行业,如电子商务、虚拟现实和游戏。

Luma AI 是一个小团队,官网上的信息显示目前在 Luma AI 任职的员工仅有不到 40 人。根据媒体 Z Potentials 的独家专访内容,Luma 的创始人兼首席执行官 Amit Jain 经验丰富,曾在苹果公司参与 Vision Pro 的开发工作,在 3D 计算机视觉、相机硬件、机器学习、系统工程和深度技术产品方面积累了丰富的经验。

 

Dream Machine比Sora更真实!免费试用火热进行中!

就如许多其它 AI 公司一样,Luma AI 的团队里也有许多华人。Luma 的另一位创始人兼 CTO 余思贤大学就读于加州大学伯克利分校,跟随一位来自日本的 Angjoo Kanazawa 教授做早期 NeRF 神经渲染研究,同时也在 GoogleAdobe 实习过,2021 年毕业之后,他遇到了 Luma AI 的另一位创始人 Amit Jain 并决定一同创业,因此拒绝了斯坦福大学、麻省理工学院等大学的博士 Offer。

 

 

Dream Machine比Sora更真实!免费试用火热进行中!

Luma AI 的首席科学家宋佳铭毕业于清华大学,大二时便开始研究机器学习。他后来前往斯坦福大学深造,毕业后还拒绝了清华姚班的教职 Offer,加入英伟达。他的研究成果之一 DDIM ( denoising Diffusion implicit models ) 算法显着提升了扩散模型的生成速度,这一算法在 Stable Diffusion 和 DALL · E 2 中都得到了应用。

 

 

Dream Machine比Sora更真实!免费试用火热进行中!

到目前为止,Luma AI 已经筹集了总计 6730 万美元的风险投资,其中包括他们在 2024 年初的 4300 万美元 B 轮融资。主要投资者包括英伟达、Andreessen Horowitz(简称 a16z)和 Amplify Partners。Luma AI B 轮投后估值约为 2-3 亿美元。

 

结语:视频生成模型赛道再现黑马,2024 会是文生视频爆发的一年吗?

近一年来,AI 视频生成领域的热度持续攀升,多家 AI 公司推出了新的视频生成模型,引发了行业内的激烈竞争。

较早进入文生视频领域的 Runway 目前已经推出了两代视频生成模型,还雄心勃勃地勾勒出了 ” 通用世界模型(General World Model)” 的宏大愿景。而华人团队背景的 Pika 已经进行了三轮融资,筹款 5500 万美元。OpenAI 更是用 Sora 这一划时代的产品,彻底引爆了这条赛道。

Luma AI 从 3D 建模转到视频生成赛道背后,除了文生视频领域本身的热度外,也和他们之前的背景有关。要生成逼真自然的视频画面,对 3D 物体和空间的理解是必不可少的,而 Luma 在这方面已经有一定的积累,并获得了投资人的认可。或许 Luma AI 的 Dream Machine 能给这一赛道带来新的惊喜。

视频生成模型的市场竞争激烈,Luma AI的Dream Machine有望成为文生视频领域的黑马,为整个行业带来新的惊喜。