大揭秘：OpenAI公布Sora模型技术原理以及训练细节

2月16日，北京大学人工智能专业博士@北大 AI鱼博士发微，从技术角度解读了OpenAI最新发布的Sora：

OpenAI最新发布的Sora视频生成模型技术报告揭示了其背后的强大训练思路和详细的技术特性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性，还能与世界互动，如同真实存在。其训练过程获得了大语言模型的灵感，采用扩散型变换器模型，通过将视频转换为时空区块的方式，实现了在压缩的潜在空间上的训练和视频生成。这种独特的训练方法使得Sora能够创造出质量显著提升的视频内容，无需对素材进行裁切，直接为不同设备以其原生纵横比创造内容。Sora的推出，无疑为视频生成领域带来了革命性的进步，其技术细节值得每一位从业者细致研究。

Sora 详细的技术报告发布了，相关从业者可能都需要看看。里面有 OpenAI的训练思路以及 Sora 详细的技术特性，下面是主要的，详细的可以去看完整内容。

简单来说 Sora 的训练量足够大也产生了类似涌现的能力。

技术特点：

1、三维空间的连贯性：Sora可以生成带有动态相机运动的视频。随着相机移动和旋转，人物和场景元素在三维空间中保持连贯的运动。

2、模拟数字世界：Sora还能模拟人工过程，如视频游戏。Sora能够同时控制Minecraft中的玩家，并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示，可以零样本地激发Sora的这些能力

3、长期连续性和物体持久性：对视频生成系统来说，Sora通常能够有效地模拟短期和长期的依赖关系。同样，它能在一个样本中生成同一角色的多个镜头，确保其在整个视频中的外观一致。

4、与世界互动：Sora有时能够模拟对世界状态产生简单影响的行为。例如，画家可以在画布上留下随时间持续的新笔触，或者一个人吃汉堡时留下咬痕。

【训练过程】：

1、Sora 的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力。

3、Sora实际上是一种扩散型变换器模型（Diffusion Transformer）。

首先将视频压缩到一个低维潜在空间19中，然后将这种表现形式分解成时空区块，从而将视频转换为区块。

4、训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入，输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并在此空间中生成视频。还开发了一个对应的解码器模型，它能将生成的潜在表示映射回到像素空间。

5、对于给定的压缩输入视频，提取一系列时空区块，它们在变换器模型中充当标记（token）。这种方案同样适用于图像，因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中，可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

6、随着 Sora 训练计算量的增加，样本质量有了显著提升。Sora训练时没有对素材进行裁切，使得Sora能够直接为不同设备以其原生纵横比创造内容。

7、针对视频的原生纵横比进行训练，还可以提高构图和取景的质量。训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

8、与DALL·E 3相似，也利用了GPT技术，将用户的简短提示转换成更详细的提示，然后发送给视频模型。

完整报告请访问OpenAI官网查看。

重点关注：

1、Sora展现的三维空间连贯性和长期物体持久性，提升了视频内容的真实感。

2、通过模拟数字世界和与世界互动，Sora能够创造出富有创意的视频内容。

3、Sora的独特训练方法及其对不同纵横比的原生支持，标志着视频生成技术的一个新时代。

七个圈AIGC破圈俱乐部欢迎您！

8万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

4.5万用户在看

功能强大上手简单还免费的AI翻译同声传译！赶快拿来用！去做优质作品！

4.1万用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4万用户在看

大揭秘：OpenAI公布Sora模型技术原理以及训练细节

最近更新

文章目录

大揭秘：OpenAI公布Sora模型技术原理以及训练细节

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

8万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

4.5万 用户在看

功能强大上手简单还免费的AI翻译同声传译！赶快拿来用！去做优质作品！

4.1万 用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4万 用户在看

大揭秘：OpenAI公布Sora模型技术原理以及训练细节

最近更新

文章目录

大揭秘：OpenAI公布Sora模型技术原理以及训练细节

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

8万用户在看

4.5万用户在看

4.1万用户在看

4万用户在看