下一代大模型的新奇点是什么?

WAIC2024超越边界:探索下一代大模型的基础研究

作者/ IT时报记者沈毅斌

编辑/孙妍

大语言模型,文字界的创作者,可以撰写生动故事、制作文案策划、与人们深度交流对话;视觉大模型,拥有识别图像、分类图像、生成图像等能力,让其成为“画家”;多模态大模型则是一位全能选手,文本、图像、音频视频等处理都不在话下……

这些以Transformer为核心架构的大模型,正在以前所未有的方式影响着人类社会的各个层面,实现从百万参数向万亿参数的飞跃发展。但新的挑战也随之而来,算力需求大、训练和推理消耗能源巨大、数据质量不佳等,让人们再次站在“十字路口”。

大模型需要“记忆分层”

尽管目前的大模型已经能够联想推理出相似的词句信息,但它还比不上人脑,人脑会不断预测,跨越多个尺度的表征层级。而实现这一能力的原因就是“记忆分层”,具体来看,就是当元知识、高频知识、低频知识等输入脑海时,会被分层处理为条件反射的隐性记忆、有意识回忆的显性记忆、暂时进行信息保存的工作记忆。

因此要让下一代大模型实现进一步智能化,同样需要进行分层处理。

“对于下一代大模型发展,第一要用好全量数据,第二要最大程度地降低成本和功耗。”中国科学院院士、北京科学智能研究院理事长鄂维南在“超越边界:探索下一代大模型的基础研究”论坛上表示,下一代人工智能的技术框架可以分为四层,第一层将是通用AI数据库,这个数据库会将结构化、非结构化、半结构化等不同类型的数据统一,不是被动的数据存储库,而是主动参与数据分析和决策过程的重要数据库。

下一代大模型的新奇点是什么?

在此基础上搭建的第二层为通用模型和专用知识库。通用模型提供强大的信息处理能力,专用知识库提供专业领域的深度和精准度,两者结合实现低成本、高效率地打造第三层智能体(小模型)。

随着一个个小模型参数量、数据结构复杂度等不断增加,就能逐步搭建起最顶层的操作程序,即大模型最终结构。

大模型发展的三大定律

华为昇腾计算业务CTO周斌看来,如今大模型的发展离不开三大定律。第一定律为Scaling Law,即尺度定律,模型的规模大小决定了模型的能力上限。目前来看,大模型表现出对模型规模的依赖性,随着计算量、数据量和参数量的提升而提升,而这一提升是可以预测的。

因此引出第二定律Chinchilla Law(龙猫定律),即在有限的计算资源下,寻找模型的参数量和数据量之间一个最优比例,模型大小和训练token的数量也应该以相等的比例进行扩展。

第三定律Emergent Abilities(涌现能力),是计算量达到一定阈值后才可能出现。目前测试数据显示,LLMs的“涌现能力”普遍出现在进行10的22次方浮点运算之后,在10的22次方至10的24次方之间能力成线性增长。

周斌认为,在大模型达到百万亿参数级之前,Scaling Law将持续奏效,此后,Gemini、Sora这样突破百万tokens的超长序列将成为大模型主流标配。这就意味着,更大的模型+更多的数据+更多的计算才能让大模型从数据驱动走向算力驱动,形成下一代大模型。

下一代算力的挑战

“我们一直在规划下一代基础设施创新,以继续推动 AI能力越来越强大。”微软首席沟通官Frank Shaw曾表示,这意味着前所未有的投入、算力、能源等需求将为下一代大模型的发展带来诸多挑战。

从算力维度来看,训练单模型的算力规模呈现指数级别增长。从GPT-2到GPT-4,训练算力增加了3000~10000倍;过去十多年来,每年模型算力需求约增长3倍多;2027年前可能会出现价值百亿美元的单集群。不过,算力规模预计,指数级增长可能在2028年达到顶峰。

数据量方面,周斌现场展示了三组数据图,高质量语言数据存量40T Tokens ,预计2026年前耗尽;低质量数据可以支持到2040年左右;目前,图像数据集年增长率大约18%~31%,预计在2030年到2060年之间耗尽。

随着AI模型增大,单NPU/GPU芯片所需要的互联带宽快速增长,需求已经超过了传统交换芯片容量的增长速度;AI算力集群规模的增长加上单芯片互联带宽的增长,将互联网络的规模推向了新高,百万卡集群需近千万的互联端口,而因为能源供给等问题,也会进一步推高跨区域的DC互联带宽,这些都将成为下一代大模型基础设施建设的挑战。

周斌还表示,大模型训练是一个大型分布式全机应用,随着集群规模增加,故障发生间隔快速缩短,严重影响集群系统实际的可用计算时间,如何预测、检测、隔离和恢复系统故障,提升大模型训练的有效计算效率?这是大规模算力集群的另一个挑战。

AI研究AI是新奇点

智能手机的发展关键点是迎来了“iPhone时刻”,大模型走进大众视野的关键点是ChatGPT的横空出世,那么下一代大模型发展的新奇点会是什么?

“我们猜想是AI的研究自动化,可能会迎来智能爆炸时代。”周斌口中的AI研究自动化,即用AI来自动研究AI。在他看来,未来智能计算技术发展路径整体为摩尔定律延长线走向非冯架构(突破冯·诺依曼架构局限),再到新计算范式的兴起。

下一代大模型的新奇点是什么?

具体来看,是存、传、算、电、质五大方面的改变。计算介质由电子计算发展为量子计算,从近似计算发展为模拟计算;软件使能从混合精度变为AI OS;计算架构从对等架构变为存算一体架构;工艺工程的wafer scale尺寸将升级为M3D。在这些细节改变提升后,带宽、计算速度、计算能效、信息压缩等也能得到大幅提升,下一代大模型将拥有更强的智能计算能力。

对于如何打造下一代大模型,周斌认为,可以塑造一个新的模型结构,比如全连接基础上增加bypass路径,来提升大模型局部性计算的能力。目前,知识图谱、检索增强生成技术还处于一个早期状态,可以考虑制造通用大模型+领域大模型的混合模型,解决异构模型、小模型消费数据量少的情况。同时,将专业知识、物理和化学模型、生物和认知行为以及社会科学等机理融入到AI能力中。使大模型在线学习能力、强化学习能力可以持续演进。