2024 年 2 月 16 日凌晨,OpenAI 正式发布了文本到视频生成模型 Sora,直接生成 60s 视频,多角色多镜头切换的视频,还上了央视新闻。
目前 Sora 并未开放,只向少数导演艺术家开放邀请码。
至此,好莱坞的时代结束了,人人可以做视频电影的时代到来啦!
今天我们就 Sora 生成视频来拆解提示词秘籍公式,竞品视频生成效果对比,解析 Sora 优势劣势和 Sora 模型原理。
首先让我们看看,目前主流的 AI 视频工具 Runway、Pika、Stable Video Diffusion 与 Sora 基本参数对比。包括发布时间、特点风格、生成时长、每秒帧数和分辨率,如下图所示。
受制于 AI 文本到视频生成的物理和时空推理局限,目前主流的 AI 视频工具 Runway、Pika、Stable Video Diffusion 生成视频通常在 4S 左右,单个连贯性视频的最大长度为 16 秒。这次,Sora 最大生成长度为 60s,直接秒杀全场。
案例一
接下来,先来看一段 Sora 生成的视频效果吧,以下是提示词。
提示词:「Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
(翻译)几头巨大的长毛象踏着雪地走近,它们长长的长毛在风中轻轻地吹着,远处是白雪皑皑的树木和引人注目的雪山,午后的光线与稀疏的云层和远处的太阳形成了温暖的光芒,低相机的视野令人惊叹,用美丽的摄影和景深捕捉到了这只巨大的长毛哺乳动物。」
生成的是一段 9 秒视频,我把整个视频进行了拆解:可以看到在 0 秒的时候画面上有两只完整的大象在行走,并且有一只被遮挡的大象在行走,0~5 秒的时候这只大象被遮挡且继续前进行走,在第 5 秒时,这只大象开始显示出来,慢慢走出来,身体很完整。可以看出 Sora 在复杂的场景、多角色表情以及镜头连贯性上表现的很突出。
接下来用相同提示词在Runway 和 Pika中看看效果吧。
可以看到在大象走路时背后雪飘扬物理世界的真实性上、大象身体运动地连贯性上、画面复杂性上,Sora 直接碾压其他两款视频软件生成效果。
案例 X 来源:https://twitter.com/keitowebai/status/1758384152670577136
案例二
另一个案例:prompt:「Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
(翻译)美丽的、白雪皑皑的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。美丽的樱花花瓣随着雪花在风中飞舞。」
生成的是一段 17 秒视频,我把整个视频进行了拆解:可以看到整个视频是一镜到底,高空跟随俯拍,在 0~2 秒镜头是动态地高空拉到人物,3 秒开始两位主角进入,镜头跟着主角的脚步向前,街道和店铺路面都符合逻辑的向前运动,且画面中物体都高度统一,第 5 秒我都担心女主会撞到前面的摊位,最后完美避让。在第 9 秒两位主角还对在对视聊天,第 3 秒和第 11 秒周围的路人消失的时候还是比较诡异的。视频中的整个街道来的店铺完全没有变形,Sora 在复杂的场景以及镜头连贯性上表现真的很突出。
接下来,使用以上相同的关键词在Pika、Runway、Stable Video中进行了测试,可以看到以下效果。Sora 在生成时长、画面连贯性和人物走路细节对视等方面也直接碾压。
案例 X 来源:https://twitter.com/gabor/status/1758282791547232482
Sora 的优势
对比 Runway、Pika、Stable Video 这些主流 AI 视频工具,Sora 的优势很明显:
- 能够生成具有多个角色、特定类型动作和主题背景的复杂视频,时长可达到 60秒;
- 可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格;
- 最重要的是,它不仅理解用户在 prompt 中要求的内容,还能自己理解这些事物在现实世界中的存在方式;
更多技术: https://openai.com/sora
Sora 的劣势
Open AI 研究人员也提到 sora 仍存着一些缺点,比如可能无法精确描述随着时间推移发生的事件,例如“五只灰狼幼崽在一条偏僻的碎石路上玩耍”,小狼的数量会发生变化,玩耍的狼会出现混淆或消失。
比如可能无法精确描述物理世界运动特征,例如“篮球穿过篮筐然后爆炸”,篮球没有正确被篮筐阻挡。
在拆解四十八个 Sora 视频案例后,我将提示词进行分类归纳,总结出提示词的五大维度包括:主体描述、场景设定、视觉细节、情感氛围、摄影技术,这五大维度。
主体描述:涉及人物、动物或物体的详细描述,包括年龄、服装、动作、表情、和与场景的互动。
场景设定:描述地点,如东京的街头、海底世界;时间,如日落时分、蓝色时刻;环境:如城市、自然景观;特定的场景氛围:如温馨、神秘。
视觉细节:包括颜色、光影、天气条件、纹理和任何特别的视觉效果,比如大象长长的毛、飞舞的樱花花瓣。
情感氛围:描述场景所要传达的情绪、情感状态或氛围,利用视觉元素和场景设置加以强化,比如温暖的感觉、神奇浪漫的感觉。
摄影技术:特定的摄影或影片拍摄技术,如 70mm 胶片、无人机拍摄、倾斜移位。
举例子
把提示词「几头巨大的长毛象踏着雪地走近,它们长长的长毛在风中轻轻地吹着,远处是白雪皑皑的树木和引人注目的雪山,午后的光线与稀疏的云层和远处的太阳形成了温暖的光芒,低相机的视野令人惊叹,用美丽的摄影和景深捕捉到了这只巨大的长毛哺乳动物。」进行拆解如下:
- 主体描述:几头巨大的长毛象,在雪地中踏步,长毛在风中轻轻吹动。
- 场景设定:雪地,远处有被雪覆盖的树木和雪山,午后,有稀疏的云和远处的太阳
- 视觉细节:长毛在风中的轻轻吹动,光线和云层形成温暖光芒。
- 情感氛围:自然之美和壮观
- 摄影技术:低相机视角,景深
案例拆解
按照上面五大维度,拆解 Sora 的四个案例提示词。
更多 48 个案例完整视频和提示词可以查看公众号「姚十八设计」回复「48」获取。
这边我把四个案例视频进行了详细的拆解,方便查看,可以看到视频每秒画质都很高清,画面物体都很完整符合逻辑。
案例一
Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
几头巨大的长毛象踏着雪地走近,它们长长的长毛在风中轻轻地吹着,远处是白雪皑皑的树木和引人注目的雪山,午后的光线与稀疏的云层和远处的太阳形成了温暖的光芒,低相机的视野令人惊叹,用美丽的摄影和景深捕捉到了这只巨大的长毛哺乳动物。
案例二
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
美丽的、白雪皑皑的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。美丽的樱花花瓣随着雪花在风中飞舞。
案例三
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人走来走去。
案例四
Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic.
提示词:一位 24 岁女性的眼睛在马拉喀什的魔法时刻进行极端特写镜头的眨眼,以 70 毫米的电影胶片拍摄,具有景深,鲜艳的颜色,电影般的效果。
Sora 秘籍公式
按照主体描述、场景设定、视觉细节、情感氛围、摄影技术,这五大维度讲以上提示词进行分类可以得到如下提示词秘籍公式。
小技巧:利用 AI 工具快速得到上述表格
使用 ChatGPT 可以快速完成。首先把四个案例的提示词文件放到输入框,输入指令「按照以上以下五个维度把上面 4 个案例进行拆解,并使用表格的形式展示出来。」就可以得到如下表格啦。大家可以利用 ChatGPT 对日常工作进行提效。
根据提示词五大维度,汇总了一些关键词如下:
1. 主体描述 (Subject Description):
职业 (Occupation): 教师 (Teacher), 艺术家 (Artist);兴趣 (Interests): 阅读 (Reading), 旅行 (Traveling);气质 (Temperament): 优雅 (Elegant), 粗犷 (Rugged);服饰细节 (Clothing Details): 复古 (Vintage), 现代 (Modern)。
2. 场景设定 (Scene Setting):
建筑风格 (Architectural Style): 现代 (Modern), 古典 (Classical);城市特色 (City Characteristics): 繁华 (Bustling), 古老 (Ancient);自然景观 (Natural Landscape): 湖泊 (Lakes), 山脉 (Mountains);社会背景 (Social Background): 科技未来 (Futuristic), 史前时代 (Prehistoric Era)。
3. 视觉细节 (Visual Details):
明暗对比 (Light and Dark Contrast): 强烈 (Strong), 微妙 (Subtle);视角 (Perspective): 第一人称 (First Person), 第三人称 (Third Person);光影变化 (Light and Shadow Changes): 日出 (Sunrise), 夜晚 (Night);空间感 (Sense of Space): 开阔 (Open), 压抑 (Oppressive)。
4. 情感氛围 (Emotional Atmosphere):
情绪变化 (Emotional Change): 从忧郁到喜悦 (From Melancholy to Joy);故事情节 (Plot): 冒险 (Adventure), 成长 (Growth);人物关系 (Character Relationships): 友情 (Friendship), 竞争 (Competition);心理描写 (Psychological Description): 坚定 (Determined), 犹豫 (Hesitant)。
5. 摄影技术 (Photographic Techniques):
技术手段 (Technical Means): 蒙太奇 (Montage), 深焦点 (Deep Focus);摄影风格 (Photographic Style): 纪实 (Documentary), 抽象 (Abstract);画面处理 (Image Processing): 色彩饱和度 (Color Saturation), 明暗调整 (Light and Dark Adjustment);特殊效果 (Special Effects): 慢动作 (Slow Motion), 倒叙 (Reverse Chronology);
OpenAI 公布了 sora 详细的技术报告。
总的来说,Sora 是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,也就是一种“扩散型Transformer”。
英伟达 AI 科学家 Jim Fan 则认为:Sora 应该是一个数据驱动的物理引擎。Sora 是对现实或幻想世界的模拟,它通过一些去噪、梯度下降去学习复杂渲染、“直觉”物理、长镜头推理和语义基础等。
纽约大学助理教授谢赛宁认为:Sora 将改写整个视频生成领域。
Sora 应该是建立在 DiT 这个扩散 Transformer 之上的。简而言之,DiT 是一个带有 Transformer 主干的扩散模型,它= [VAE 编码器 + ViT + DDPM + VAE 解码器]。
谢赛宁猜测,关于视频压缩网络,Sora 可能采用的就是 VAE 架构,区别就是经过原始视频数据训练。而由于 VAE 是一个 ConvNet,所以 DiT 从技术上来说是一个混合模型。
1. 视觉数据处理方式
Sora 创新性地采用“Patches(补片)”技术处理视觉数据,区别于大语言模型的 token 处理方式。通过将视频内容压缩到低维潜空间,进一步解构为时空补片,实现将视频转化为易于处理的补片形式。
2. 视频格式的灵活性
Sora 能够生成多种格式的视频,支持不同的分辨率、时长和宽高比,优化了视频的构图和布局。与常见的将视频裁剪为正方形不同,Sora 能够完整捕捉场景,得益于在视频的原始尺寸上进行训练。
3. 图像生成的能力
除了视频,Sora 同样具备生成图像的能力。通过在空间网格中排列高斯噪声补片,并设置时间范围为单帧,Sora 能够生成不同尺寸的图像,最高支持 2048×2048 分辨率。
总体而言,Sora 的出现预示着视频创作领域的一次重大变革,无论是广告行业、影视行业、短视频从业者还是普通人,都提供了新的创作路径,使大家能以更低的成本和更高的效率创作高质量视频内容。
在 AI 技术日益成熟的今天,我们需要了解更多画面构图知识,摄影知识,沉淀自己,来拥抱 AI 将为我们带来更多的机会。
关注我,我也会持续为大家带来最新的 AIGC 新动态和工具教程哦。
(来源:优设网,作者:yaoyao)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则