嗨!小伙伴们,我是你的好朋友小SOMO!

有一项新技术,一张图一段文字就能沿相机轨迹生成无限连贯3D场景

为什么乌鸦像写字台?

在《爱丽丝漫游奇境记》中许多奇特的人物与场景构成了一个引人入胜的世界,由此吸引无数读者。在今天这个技术中,继承了这一创造性传统,探索现代计算机视觉和AI如何同样生成如此有趣和多变的视觉世界。

一张图、一段文字就生成3D场景的技术,实在太多了,都见怪不怪了!

但是今天!不一样!不光能生成3D场景,且还可以任意方向沿着相机轨迹生成无线连贯的3D场景。

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入图像)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输出图像)

 

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入文字)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输出图像)

用一张爱丽丝梦游仙境的图片,就可以生成一段整个仙境的奇幻之旅;同样的,用一首诗就可以生成中国风水墨的幻境;这样丰富的生成仅仅是冰山一角!此项目名为WonderJourney由斯坦福吴佳俊团队和谷歌研究院强强联合共同打造!

WonderJourney是一个模块化的永久场景生成框架,与之前专注于单一类型场景的视图生成工作不同,从用户提供的任何位置(通过文字描述或图像)开始,生成一长串不同但连贯的三维场景之旅。利用LLM生成旅程中场景的文本描述,利用文本驱动的点云生成管道,生成引人注目且连贯的三维场景序列,并利用大型VLM验证生成的场景。展示了各种场景类型和风格的多样化视觉结果,形成了想象中的“奇妙之旅”!

从任何地方出发

WonderJourney从一个任意位置(由文本或图像指定)开始,沿摄像机轨迹生成一系列不同但连贯的三维场景(即 “奇妙之旅”)。

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入图像)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输出图像)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入真实照片)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输出图像)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入图像)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输出图像)
漫长的“奇妙之旅”

WonderJourney可以合成超漫长的“奇妙旅程”。 所合成景象更是不带重复的!将鼠标悬停在视频上可暂停自动滑动。

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入图像)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输出图像)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入图像)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!

(输出图像)

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入真实照片)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!

(输出图像)

去往任何地方

WonderJourney还可以生成一系列多样化的“奇妙旅程”,最终到达不同的目的地。使用相机姿势的轨迹渲染下面的每个视频,将鼠标悬停在视频上就可以暂停自动滑动。

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
受控奇妙之旅

WonderJourney还能根据文字描述序列(如诗歌、俳句和故事摘要)生成可控的奇妙之旅,将鼠标悬停在视频上可暂停自动滑动。

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入文字)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!

(输出图像)

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!

(输入文字)

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!

(输出图像)

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输入图像)
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
(输出图像)
从上面的生成图来看,生成的风格很不一样,输入中文的诗词,是最具有我国代表性的中国山水3D场景;输入日文,则是浮世绘风格的3D场景;输入英文,则是油画风格的3D场景!

生成的质量也是不错的,很流畅并且视觉效果也很惊艳,难得的是生成的元素,以及所在空间位置等具有合理性,并且风格多变!这个项目可以说,从传统一句话一张图生成3D图像的基础上,又开了一扇新的窗口!还未等到项目代码的正式发布,就收获了300多颗小星星。

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!

那究竟使用了何种技术才能达到这种效果呢?在论文中编编找到了一些蛛丝马迹,请看WonderJourney框架和跨模块的工作流程图:

斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!

如上图所示,WonderJourney框架包含三个核心组件:用于生成场景描述的LLM,以及生成连贯3D场景的文本驱动的视觉模块Text-guided inpAInting,还有一个用于验证生成场景的VLM。

WonderJourney生成过程分为“确定给场景生成那些对象”、“将这些对象放在哪里”以及“这些场景如何以几何的形式相互连接”。整个生成过程需要下面三个模块配合完成:

  • Scene description generation:即场景描述生成,在这个模块中,LLM提供常识和语义推理,并生成场景文本描述。利用LLM输出自然语言描述,然后使用词汇类别过滤文本,只保留实体的名词和属性的形容词来生成更连贯的连接场景。
  • Visual scene generation:即视觉场景生成,将文本描述转换,通过视觉模块提供视觉和几何理解生成适当的3D效果。将图像提升到点云:确定由图像表示的当前场景,通过估计深度将其提升到3D,并使用针孔相机模型将其取消投影。其次,为了解决物体边界深度边缘过于平滑,以及天空深度的问题,引入了一种利用像素分组分割,和天空分割的深度细化过程。为了增强跨对象边界的深度不连续性,当元素的视差范围有限时,使用正面平面对场景元素进行建模。从而使过渡更加自然。
斯坦福团队项目:无限连贯的3D场景,只需1句话1张图就能生成!
  • Visual validation:即视觉验证,主要利用VLM来验证生成,当检测到不合理的场景时,启动重新生成。

WonderJourney框架是完全模块化的,这三个模块都可用最先进的预训练模型实现、替换,所以不需要任何训练!

反正,总的来说,使用WonderJourney通过文本描述、或者一张图就可以生成一长串不同但连贯的3D场景。并且可以在各种场景类型和不同风格中实现绚丽合理的多样化视觉效果~来实现用户“奇妙之旅”中的大冒险!

参考链接:https://kovenyu.com/wonderjourney/
参考论文:https://arxiv.org/pdf/2312.03884.pdf
(来源:公众号 CGSOMO,作者:小SOMO )