Sora引领AI视频时代以来,国内外各大技术公司纷纷投身这一新兴领域的竞争。面对更加交互、沉浸的视频新时代,如何有效应对成本、质量和性能方面的挑战成为关键。

在最近的视频云技术大会上,火山引擎联合英特尔共同发布了创新大模型训练视频预处理方案。据《每日经济新闻》报道,这一技术方案已经应用于豆包视频生成模型

在发布会上,Bytedance Research的负责人李航介绍了豆包视频生成模型PixelDance是如何利用火山引擎的大模型训练视频预处理方案来充分利用大量潮汐资源,为模型训练提供有力支持的。

此外,抖音集团视频架构负责人王悦透露了字节自研视频编解码芯片最新进展。该芯片经过抖音集团内部的实践验证,在同等视频压缩效率下,成本节省了95%以上。王悦还深入解释了面临的技术挑战和痛点:“首先是大规模视频训练数据集带来的计算和处理成本飙升。其次是视频样本数据质量不均,还有处理链路环节多且工程复杂等问题。”

火山引擎在解决这些问题方面做出了显著的努力。他们发布的自研多媒体处理框架和大模型训练视频预处理方案旨在解决视频大模型训练的成本、质量和性能技术挑战。预处理过程确保了视频数据格式的标准化、数据质量的提升以及标注信息的处理,从而提高了模型的学习效率和效果。

针对算力成本的问题,一位国内视频生成模型的算法工程师在接受《每日经济新闻》采访时表示,视频模型训练需要更多的算力,高质量的数据也更为稀缺。计算机科学家Matthias Plappert的研究也证实了这一点,Sora的训练对算力规模需求巨大。为了降低成本,火山引擎利用Intel的CPU等资源对方案进行了优化,并通过算法和工程的调整实现对海量视频数据的高质量预处理,提高了模型训练的效率。

除了上述方案,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案等,从生产端到消费端全链路融入AI能力。整个AI领域正在经历一次革命性的变革,将人们从高清数据世界带入智能、交互的AI世界。

市场上AI视频产品的涌现速度几乎是按月来计时的。它们大多应用于影视、电商营销等领域,展现出广泛的应用前景。然而,仍存在一些挑战,如算力和合规风险。企业需要投入大量资源和时间来克服这些挑战。此外,AI视频的商业化路径仍然面临长期培育期的问题,因为高昂的模型训练与推理成本以及分散的C端用户需求使得变现变得困难。

展望未来,AI视频的时代已经到来,如何降本增效、占领更多市场份额将成为各大互联网大厂和科技企业面临的重要课题。