MiniMax加入视频生成混战，大模型的尽头是做视频?

MiniMax加入视频生成混战，最新推出video-1模型，具有高压缩率、文本响应好和风格多样等特点。

又一家国内独角兽加入视频生成模型的混战。8月31日，一向低调的“AI六小龙” 之一——MiniMax第一次正式对外，在上海办了场“MiniMax Link伙伴日”活动。在会上，MiniMax创始人闫俊杰宣布推出视频生成模型和音乐模型。此外，他预告，新⼀版能从速度和效果都对标GPT-4o的大模型abab7，会在未来⼏周内发布。这一视频生成模型的对外名称为video-1，在具体参数上MiniMax并未有太多介绍。闫俊杰提到，相比市面上的视频模型，video-1具有压缩率高、文本响应好和风格多样的特点，可生成原生高分辨率、高帧率视频。目前video-1只提供了文生视频，在未来产品会迭代图生视频、可编辑、可控性等功能。

目前所有用户都可以登录海螺AI官网体验video-1的视频生成功能，记者在现场体验了一下，输入一段简单的提示词，大概等待1-2分钟，可生成6秒的视频。从输出效果来看，画面基本覆盖了提示词说到的点，高清、色调审美合格，可以改进的地方是人物面部细节。

在大会讨论环节，闫俊杰提到一个点是，大模型是一个看起来很热，但是也有很多非共识的领域，“到底要做2B还是2C，到底做国内还是做海外，Scaling law到底能不能延续……”等等。尽管有这么多非共识，但视频生成或许是今年各大模型厂商的共识。自今年2月OpenAI发布视频大模型Sora后，行业叫得上名字的发布不少，4月生数科技发布视频大模型Vidu，6月快手发布AI视频生成大模型可灵，一周后Luma AI发布文生视频模型Dream Machine，Runway在7月初宣布，文生视频模型Gen-3 Alpha向所有用户开放使用，在世界人工智能大会期间阿里达摩院推出寻光，7月底，爱诗科技发布PixVerse V2，随后智谱正式发布清影视频，8月初，字节即梦AI上架应用商店……一年前市面上还很少有面向公众的文生视频模型，短短几个月内我们目睹了几十款视频生成模型的问世，一位行业人士感慨，过去一年对于AI视频生成来说是一个历史性的时刻。在采访中，第一财经记者问及MiniMax布局视频生成的必要性，闫俊杰表示，本质原因是，人类社会的信息更多体现在多模态内容上，“我们每天看的大部分内容，都不是文字，都是一些动态的内容。你打开小红书都是图文，打开抖音都是视频，甚至打开拼多多买东西，大部分时候也是图片。”⽣活中，⽂字交互只是很⼩的⼀部分，更多的是语⾳和视频交互。因此，为了能够有非常高的用户覆盖度，以及更高的使用深度，作为大模型厂商，唯一的办法是能够输出多模态的内容，而不是只是输出单纯的基于文字的内容，闫俊杰解释，这是一个核心的判断。“只是在之前我们先做出来文字，又做出来声音，很早做出来了图片，现在技术变得更强，（可以）把视频也做出来。这个路线是一以贯之的，一定要能做多模态。” 闫俊杰说。但视频生成赛道很难，仅看OpenAI在年初发布Sora后，至今没有正式对外，也可以窥见行业的一些挑战。一方面，目前的视频生成结果远远达不到用户的预期，模型并不懂物理规则，同时生成过程很难控制。视频、图像、三维的生成类算法会遇到很多结构性和细节性问题，如通常会多长出一样东西或者少一样东西，或者手穿模到人身体里，精细化的视频、尤其是具有物理规则的视频目前很难生成。在采访中，闫俊杰也表示“这件事还挺难的”，否则如此多号称做这个事的公司早做出来了。视频的工作复杂度比做文本更难，因为视频的上下文文本天然很长。例如，一个视频是千万的输入和输出，天然就是一个很难的处理。其次，视频量很大，看一个5秒的视频就有几M，但是5秒看的文字大概100个字，可能都不到1K的数据量，这是几千倍的存储差距。“这里面的挑战在于，之前基于文本建的这套底层基础设施怎么来处理数据，怎么来清洗数据，以及怎么来标注，对视频上都不太适用。”闫俊杰认为，基础设施需要升级，其次就是耐心，做文字有很多开源，如果基于开源来做，自己研发会更快，如果做视频，开源内容没那么多，很多内容做出来也会发现需要重做，需要付出的耐心更大。此前有行业从业者对记者表示，目前的视频生成有点像图像生成的2022年前夕，2022年8月Stable Diffusion开源后，AIGC 图像生成开始爆发，但视频生成领域目前还没有一个特别厉害的“开源Sora”发布，大家还需要探路。启明创投在7月发布了 “2024生成式AI十大展望”，其中一条是，3年内视频生成将全面爆发，他们认为，结合3D能力，可控的视频生成将对影视、动画、短片的生产模式带来变革。未来图像和视频隐空间表示的压缩率提升五倍以上，从而使生成速度提升五倍以上。

视频生成模型的发展势头迅猛，MiniMax的video-1模型将带来更多多模态内容的输出，满足用户需求。

七个圈AIGC破圈俱乐部欢迎您！

7.1万用户在看

云联盟：中国电信天翼云助力中小企业制胜AIGC时代！

2.6万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

2.6万用户在看

Midjourney精选8组热门空间场景词，海报神器来袭！

2.4万用户在看

MiniMax加入视频生成混战，大模型的尽头是做视频?

最近更新

文章目录

MiniMax加入视频生成混战，大模型的尽头是做视频?

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

7.1万 用户在看

云联盟：中国电信天翼云助力中小企业制胜AIGC时代！

2.6万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

2.6万 用户在看

Midjourney精选8组热门空间场景词，海报神器来袭！

2.4万 用户在看

MiniMax加入视频生成混战，大模型的尽头是做视频?

最近更新

文章目录

MiniMax加入视频生成混战，大模型的尽头是做视频?

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

7.1万用户在看

2.6万用户在看

2.6万用户在看

2.4万用户在看