近日,腾讯在人工智能领域再下一城,其研发团队通过Hugging Face平台正式发布了全新AI模型GeometryCrafter。这一模型以其在开放世界视频中实现一致性几何估计的卓越能力,迅速成为科技圈的焦点。借助扩散先验技术(Diffusion Priors),GeometryCrafter不仅为视频内容的深度理解和处理带来了新的可能性,也为创作者和研究者提供了一把探索三维世界的“钥匙”。

GeometryCrafter的核心亮点在于其能够从动态、复杂的开放世界视频中提取并生成一致的几何信息。所谓“开放世界视频”,指的是那些内容多样、场景切换频繁、视角变化丰富的视频素材,例如街头实拍、旅行记录或自然风光纪录片。与传统的静态图像几何估计不同,这类视频对AI模型的时空一致性和泛化能力提出了更高要求。腾讯团队通过将预训练的扩散模型与视频几何估计相结合,成功让GeometryCrafter在无需额外信息(如相机位姿或光流数据)的情况下,生成细腻且连贯的深度序列和几何结构。

腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美

据介绍,该模型的研发灵感源于扩散模型在图像生成领域的成功经验。扩散先验技术通过逐步去噪的过程,能够捕捉视频帧间的微妙关联,并将这些信息转化为三维空间的几何表达。无论是城市街道上行人川流不息的动态,还是山川河流间光影交错的自然景观,GeometryCrafter都能以惊艳的精度还原其空间层次。这种能力不仅让视频内容从二维平面“跃然立体”,也为后续的视觉特效、虚拟现实内容生成等应用奠定了坚实基础。

业内专家指出,GeometryCrafter的发布填补了开放世界视频几何估计领域的一项空白。此前,许多模型在处理长序列视频或非受控场景时,往往因缺乏足够的上下文理解而导致结果失真。而GeometryCrafter通过其独特的三阶段训练策略,结合真实与合成数据集,既保留了内容的丰富多样性,又确保了几何细节的精确性。实验结果显示,该模型在多个公开数据集上的表现超越了现有方法,尤其是在保持长时间序列一致性方面,堪称行业标杆。

腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美

对于普通用户和创作者而言,GeometryCrafter的意义同样深远。想象一下,家庭录像中的孩子奔跑画面可以通过这一技术被赋予三维深度,甚至被无缝融入虚拟场景;抑或是一个独立电影制作人,利用GeometryCrafter将简单的拍摄素材转化为沉浸式的视觉体验。腾讯此次选择在Hugging Face上开源模型代码和权重,也体现了其推动AI技术普惠化的决心,让更多人能够参与到这一技术的探索与应用中。

当然,GeometryCrafter并非完美无缺。有分析人士提到,其对计算资源的需求可能对普通设备构成挑战,而在极端复杂的场景(如密集人群或快速运动物体)中,模型的性能仍有优化空间。但不可否认的是,这一技术的推出为我们打开了一扇窗,让人们得以窥见AI如何将日常生活的片段转化为充满立体感的数字艺术。

随着GeometryCrafter的亮相,腾讯再次证明了其在AI领域的深厚积累与创新能力。从视频内容的几何重构到跨领域的潜在应用,这款模型不仅是一项技术突破,更是一个温暖的邀请——邀请每一个人用科技的力量,去重新发现和塑造我们身处的这个多彩世界。

论文:https://huggingface.co/papers/2504.01016

模型:https://huggingface.co/TencentARC/GeometryCrafter