随着人工技术的飞速发展,人类似乎离电影《黑帝国》中的虚拟场景又近了一。近日,一个名为 “The Matrix” 的 AI 基础世界模拟器正式推出这一创新成果由一个全华人团队,能够实现无限生成高保真的720p真实场景视频,并且支持实时交互

该模拟器展示了一个14分钟的演示视频,实际上,它可以持续生成长达一个小时的内容,涵盖沙漠、草原、水体和城市等多场景。在体验过程中,用户可以通过键盘的 WA、S、D 键进行实时控制,感受每秒16帧的动态画面。

AI版本《黑客帝国》问世!The Matrix实现无限生成720p视频,3A画质

“The Matrix” 项目的开发团队成员来自阿里巴巴、香港大学、滑铁卢大学和加拿大 AI 研究机构 Vector Institute。他们命名为 “The Matrix”,正是受到了电影中一句经典台词的启发:这是你熟悉的世界;它现在只存在于我们称之为 Matrix 的神经交互模拟系统中。

提示词:admin@matrix: The scene depicts an urban environment where a long, straight road stretches beneath an elevated highway or bridge, flanked by fences indicating construction or restricted access. The street is marked with two yellow lines, and massive concrete pillars support the roadway above, casting shadows below. On the left wall, red digital numbers are visible, possibly used for monitoring or alerts, accompanied by construction materials and barricades, signifying active development. On the right side, infrastructure and a neon blue 'PAWN SHOP' sign indicate nearby commercial activity. Beyond the overpass, the road leads to tall modern buildings, their illuminated windows showcasing the vibrancy of the city landscape. Streetlights and digital displays provide limited lighting, adding to the futuristic feel. Despite signs of activity, the road is devoid of vehicles or pedestrians, contributing to a sense of silence. The portion of the sky outside the bridge contrasts with the shadows cast beneath it, while the surrounding construction and advanced architecture create an atmosphere of a city that is both evolving and futuristic.

该项目的核心亮点在于其提供了前所未有的帧级控制,让用户的每一个操作都能得到即时响应,仿佛身临其境。用户可以在第一人称或第三人称视角下,体验驾驶汽车穿越沙漠、森林或城市等不同场景。通过对3A 级游戏如《极限竞速:地平线5》和《赛博朋克2077》的数据训练,这一系统能够生成几乎与现实无异的场景。更重要的是,用户可以进行连续的视频体验,无缝地穿越各种环境。

除了能够无限生成视频和高质量的画面之外,“The Matrix” 还具备了零样本泛化的。这意味着,模拟器可以在没有相应训练数据的情况下,理解并预测不同环境中物体的行为和交互。

该模拟的训练数据主要来源于三款3A 游戏的监督数据和大量现实场景的无监督视频。与以往的研究不同,这一技术的创新在于它的学习能力,使其能在未见过的环境中进行准确的生成。

例如,模拟器可以展现 “宝马 X3在环境中行驶场景,或是 “车在水中游泳” 的奇妙画面从技术角度来看,“The Matrix” 核心由三个模块构成:交互模块、移窗去噪过程模型和流一致性模型。交互模块负责理解用户的输入并整合到视频生成中,而移窗去噪过程模型则使长视频的生成变得可行,解决了传统模型在长序列生成时的瓶颈。最后,流一致性模型的集成使得推理速度大幅提升,实现了实时生成。

项目负责人 Hongyang Zhang 和 Ruili Feng 表示,未来还会继续推动这一技术的发展,力求为用户带来更加逼真的虚拟体验。

提示词:The video features a close-up of a woman inside a car, wearing oversized sunglasses and dressed in black.




