近日,蚂蚁集团的Ling团队在预印版Arxiv平台上发布了一篇题为《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》的技术论文。该论文介绍了两款新型大语言模型:百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。这两款模型在设计上采用了多项创新技术,能在低性能硬件上实现高效训练,大幅降低了训练成本。

百灵轻量版的参数规模为168亿,激活参数为27.5亿。而增强版的基座模型则拥有高达2900亿的参数,激活参数为288亿,其性能达到行业领先水平。尤其是增强版,在国产GPU的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。

蚂蚁集团创新发布两大MoE大模型:显著减少训练成本,引领技术前沿。

通常,MoE模型的训练需要依赖昂贵的高性能GPU,如英伟达的H100和H800,这不仅成本高昂,还受到芯片短缺的限制,影响了其在资源有限环境中的应用。为此,蚂蚁集团的Ling团队提出了一种全新的目标——在不使用高级GPU的情况下扩展模型,突破了资源和预算的限制。他们通过动态参数分配、混合精度调度以及升级的训练异常处理机制等创新训练策略,有效地缩短了中断响应时间,优化了模型评估流程,将验证周期压缩了超过50%。

实验数据显示,Ling团队对9万亿个token进行了Ling-Plus的预训练。在高性能硬件配置下,训练1万亿token的成本约为635万元人民币。而采用蚂蚁的优化方法后,低规格硬件的训练成本降至约508万元,节省了近20%的成本。同时,其性能与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当。

图为一篇AI生成的图片描述:“加速器,提速,光”(图片来源:AI合成)。蚂蚁集团Ling团队的创新训练策略在这一技术成果中得到了广泛应用,为国产大模型提供了更加经济高效的解决方案,减少对英伟达芯片的依赖,为未来的人工智能发展开辟了新的道路。