人工智能科学家李飞飞创立的科技公司 World Labs  刚刚推出了第一个项目:仅通过一张图片像就生成一个完整 3D 世界的 AI 系统

大语言模型还没搞懂,“大世界模型”又来了
一键生成中世纪小镇丨World Labs

World Labs 在介绍博客中写道,“输入任何图像后,可以以 3D 方式探索它”——给 World Labs 一张图,它能将图中场景三维化,还不是静态的“2D 转 3D”,你能像游戏里的第一人称一样控制视角,探索场景

大语言模型还没搞懂,“大世界模型”又来了
五花八门的场景丨World Labs

World Labs 管这叫“大型世界模型”(Large World Model, LWM),他们也称自己为空间智能 AI 公司。

完整系统还在邀请内测阶段,World Labs 在官网开放了即时演示,用户不仅可以看,还可以在浏览器直接操控视角转换,感受 World Labs 塑造的世界。

大震撼。

 “一图一世界” 

这个系统同之前英伟达曾开发过的“2D转3D”模型 Instant NeRF 完全不同—— Instant NeRF 的视角没有深度变化、受阻没有物理碰撞,甚至会发生直接穿越;而 World Labs 这一工具生成的场景符合基本空间原理和物理定律

大语言模型还没搞懂,“大世界模型”又来了
英伟达的 2D 图片转 3D 场景的大模型 Instant NeRF 就有物理问题丨Instant NeRF

这更不会像上个月推出的 AI 即时生成 3D 可交互游戏 OASIs里面的“鬼打墙”——切换个视角再回来,世界就成了另外一番样子那般诡异。World Labs 的这个系统生成的是完整三维场景而非像素,克服了像素层面生成不具备一致性和稳定性的缺陷

大语言模型还没搞懂,“大世界模型”又来了
看得人都晕 3D 了丨World Labs

在它生成的场景里,你可以用“前后左右”在生成的空间内移动,用鼠标转换视角,并能调节场景、添加动效,比如光影、景深、色调,效果能直接在浏览器里实时渲染出来。

当你让树叶“沙沙作响”,为街角小巷营造出不同光影,让水面泛起涟漪,能感受到系统并非简单的动效添加,而是识别出了场景里的实体

大语言模型还没搞懂,“大世界模型”又来了
希区柯克变焦丨World Labs

想象一下,与其他工具结合或随着这个系统功能变多,你可以“化身”舞台置景,控制这一场景的布光和色调,甚至插入一个角色进入场景,改变画面的运镜,比如利用系统里自带的滑动变焦(俗称希区柯克变焦,算法算好了摄影机的位置和景深,用户直接拖动就能实现该效果),就能实现那股“诡异”的感觉。

 可远观而不可近玩 

惊喜巨大,但一上手还是会暴露一些问题。

首先,就是类似游戏里的“空气墙”,你在场景里的移动十分受限,物理感觉只有 1-2 平米的移动范围,移动几步就会提示“越界”。

大语言模型还没搞懂,“大世界模型”又来了
真·处处碰壁丨World Labs

其次是类似 VR 的问题,越靠近边缘的视野越模糊,动态场景的画质也不如静态的清晰,但这对非写实风格的场景来说不是问题。

交互上,镜头控制选项也较少,景深控制只能选择距离,不能选择具体的对焦点,运镜也只能滑动变焦。

“真实物理感”虽然说满足了最基本的不能穿墙,画面随第一视角移动,和点哪(光源)亮哪,但有限的交互和行动半径,却还是附着了另一层虚拟感。

大语言模型还没搞懂,“大世界模型”又来了
光也可以指哪儿打哪儿丨World Labs

不过 World Labs 也表示,这只是“早期预览版”。他们正在努力提升生成世界的规模和细节质量,并探索更多交互方式。

确实,World Labs 其实今年才成立,但已经拿到了 2.3 亿美元的风险投资,估值超过 10 亿美元,预计 2025 年将推出首款正式产品

大语言模型还没搞懂,“大世界模型”又来了
World Labs 核心团队丨World Labs

不到一年时间,World Labs 已经端出了一个让人惊艳和浮想联翩的产品,而这只是一个开始。李飞飞曾表示,大型世界模型只是 Worlds Labs 公司的第一步,后面他们准备把场景设计融入 AR、机器人甚至自动驾驶。

 这些工具出的比用的都快,有啥用? 

“我们计划构建对艺术家、设计师、开发人员、电影制片人和工程师等专业人士有用的工具。允许任何人想象和创造自己的世界,将生成性人工智能的潜力从 2D 图像和视频扩展到 3D 世界。”

我理解是,World Labs 要给创作先“打个底”

大语言模型还没搞懂,“大世界模型”又来了
静谧酒馆一键穿越进画中诡谲世界丨World Labs

创造一个符合真实世界规律的虚拟世界,首要的应用之一就是游戏。

3D 场景开发占游戏制作成本中很大比重,许多独立游戏开发者都会卡在这一步,退而求其次去选择其他方式,比如 2D 像素风、手绘、低多边形、平面、插画、立绘等等方式。

大语言模型还没搞懂,“大世界模型”又来了
YouTuber 把著名(但画风简陋)的独立游戏《Undertale》3D 化丨YouTube

World Labs 的这个系统可以结合市面上的 AI 工具,比如 Midjourney图像生成)、Flux AI(优化画质)等,生成3D游戏场景,自由设计镜头运动,这对于开发者来说是新的创作方式。

大语言模型还没搞懂,“大世界模型”又来了
分分钟带入恐怖游戏视野,这味太对了丨World Labs

电子游戏中最早出现的游戏类型之一 AVG 文字冒险游戏,此前最常见的形式就是一个角色立绘在一个场景背景板前,靠对话框传递信息(比如著名的《逆转裁判》)。

有了上述的创作工具,即便我没有任何绘画和建模基础,只凭一个剧本和脚本编辑器,就有可能打造出一款 AVG 游戏

大语言模型还没搞懂,“大世界模型”又来了
AI 工具搭配起来用,事半功倍丨World Labs

还记得前一阵的“3A”大作《沙威玛传奇》吗?越来越多独立开发者考虑用AI降低小游戏开发成本。专业的大厂可以用最先进的图像引擎,生成一个完整的世界。World Labs 这个系统恰好弥补了游戏开发中的一个空白区它小范围的场景生成远未到替代专业引擎的程度,但又极大地降低了游戏场景设计的门槛,从视觉甚至交互层面,给予了独立游戏更多可能

大语言模型还没搞懂,“大世界模型”又来了
漫画,似动画,似《职场浮生记》游戏开局丨World Labs

游戏之外,再想象一下类似 3D 物理世界生成系统与其他媒介结合的可能性。

把你手绘的几个分镜头脚本输进去,它给你生成了一个虚拟的拍摄场地,你甚至可以在里面运镜,做出一个简单的样片也不是问题。

把文学作品丢进 World Labs,你可以真的进入乔治·马丁笔下的君临,J·K·罗琳描绘的巫师大街对角巷,看一下三日恒空的三体世界。

大语言模型还没搞懂,“大世界模型”又来了
这或许是更符合原著《哈利波特》里描绘的对角巷丨World Labs

把梵高的画作输入进系统,你可以真的坐进《夜晚露天咖啡座》,或是看到莫奈所见的《圣达特特勒斯的海滩》,站在《夜游者》的酒吧门口,像一个等待进入的顾客。

大语言模型还没搞懂,“大世界模型”又来了
生成模型后,场景依旧保有了爱德华·霍普《夜游者》中都市的寂寥感丨World Labs

甚至有天,你做了一晚上超现实的梦,在醒来后打开电脑,把梦境记录下来,然后就得到了一次梦境的复现