“过去22个月,AI发展速度超过任何历史时期。”9月19日,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上表示,阿里云正在以前所未有的强度投入AI技术研发和基础设施建设。

力度前所未有!阿里云宣布全力投入AI大基建
根据中国信通院数据,截至2023年底,中国算力总规模达到230EFLOPS,存力总规模约1200EB。过去一年,阿里云投资新建了大量的AI算力,但吴泳铭坦言,“还是远远不能满足客户的旺盛需求”。

一方面,市场对AI应用的热情前所未有的高。超过30万的企业客户通过阿里云百炼平台在千行百业用上了通义大模型。阿里云接触到的几乎所有客户、开发者、CTO,都在用AI重构自己的产品,很多应用看起来外壳没有变,但内核已经由AI驱动。

另一方面,AI模型技术的迭代更新,推动AI计算成为计算体系的主导。以CPU主导的计算体系,正在加速向GPU主导的AI计算体系转移,新增算力需求超过50%来自以GPU为核心的AI计算,大模型正在倒推AI大基建加速快跑。

本次云栖大会上,阿里云宣布从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系的系列升级,真正让数据中心成为一台超级计算机。阿里云灵骏集群单网络集群已拓展至10万卡级别,连续训练有效时长可达99%以上,模型算力利用率提升20%以上。

但还不止于此,阿里云还正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的AI先进基础设施。

下一代先进模型门槛将达到数十亿美金,但AGI的变革仍处于早期

过去一年多,生成式AI加速发展。投融资数据显示,2023年度对生成式人工智能的投资激增,投资金额比2022年(约30亿美元)增长近九倍,达到252亿美元。相当部分投资涌入基础模型领域,生成式人工智能领域的主要参与者,包括OpenAI、Anthropic、Hugging Face和Inflection,都获得了一轮可观的融资。不过,吴泳铭判断,这一切才刚刚开始,投入仍将继续飙升。

“要实现真正的AGI,下一代模型需要具备更大规模、更通用、更泛化的知识体系,同时也将具备更复杂更多层次的逻辑推理能力。全世界先进模型竞争的投入门槛,将达到数十亿、数百亿美金的级别。”吴泳铭在论坛上表示。

本届云栖大会上,阿里云发布通义旗舰模型Qwen-Max,参数规模升级,采用更多数据训练,模型效果更上一层,成为国内效果GPT-4o的大模型。同时,阿里云还发布了发布通义千问新一代开源模型Qwen2.5,旗舰模型Qwen2.5-72B性能超越Llama 405B,再登全球开源大模型王座。同时,通义的各类衍生模型和应用百花齐放,Qwen系列衍生模型总数超过5万个,开源模型累计下载量已经突破4000万。不过,吴泳铭认为,这仍处于AI变革的早期,一切才刚刚开始。

力度前所未有!阿里云宣布全力投入AI大基建
“我们认为生成式AI将逐渐渗透数字世界,并接管数字世界,物理世界的大部分事物都会具备AI能力,形成下一代的具备AI能力的全新产品,并与云端AI驱动的数字世界连接产生协同效应。”吴泳铭说。

在他看来,AI模型可以通过对物理世界数据的token化,理解真实世界的方方面面。理解之后,AI就可以模仿人类去执行物理世界的任务。这将带来新的产业革命。

吴泳铭举例称,汽车行业正在发生这样的变革。传统的自动驾驶技术依赖于人工编写的算法规则,即便拥有数十万行代码,也无法覆盖所有驾驶场景。而采用“端到端”的大模型技术进行训练后,人工智能模型能够直接从海量的人类驾驶视觉数据中学习,从而赋予汽车超越大多数驾驶员的驾驶技能。

机器人行业也是下一个迎来巨变的行业。未来,所有可移动的物体都可能转变为智能机器人,这些机器人可能包括工厂中的机械臂、建筑工地上的起重机、仓库内的搬运工、火灾现场的消防员,以及家庭中的宠物狗、保姆和助理等。

根据IDC《2023—2024年中国人工智能计算力发展评估报告》,67%的中国企业已经开始探索生成式人工智能在企业内的应用机会或已经开始进行相关资金投入,2023年人工智能在互联网AI渗透率高达89%,而制造业的AI渗透率也已超过47%。

“可以想见,AI驱动的数字世界连接着具备AI能力的物理世界,将会大幅提升整个世界的生产力,对物理世界的运行效率产生革命性的影响。”吴泳铭表示。

50%新增算力需求由AI驱动,

阿里云大举投入AI基建

云栖大会上,吴泳铭透露,“在新增算力市场上,超过50%的新需求由AI驱动产生,AI算力需求已经占据主流地位。这一趋势还会持续扩大。”

想要改变物理世界,首先要做好基建。所有行业都需要性能更强、规模更大、更适应AI需求的基础设施。AI技术的快速发展正推动着全球科技巨头在AI基础设施上的投资热潮。

近一年来,英伟达、AMD等芯片制造商相继发布了新一代GPU产品,这些高性能计算芯片为大模型的训练和推理提供了强大动力;亚马逊表示下半年加大对其云服务(AWS)的资本支出,确保“供应与需求相匹配”;贝莱德和微软拟筹集300亿美元用于支持AI的基础设施;Google CEO Sundar Pichai也强调了现阶段对AI基础设施进行投资的重要性,他认为当前投资不足的风险远大于投资过剩的风险。

看向国内,阿里云也在AI基建的投入上走在行业最前沿。阿里云正在以前所未有的强度投入AI技术研发和基础设施建设,以AI为中心,全面重构底层硬件、计算、存储、网络、数据库、大数据,并与AI场景有机适配、融合,加速模型的开发和应用,打造AI时代的最强基建。

力度前所未有!阿里云宣布全力投入AI大基建
大会现场,阿里云智能集团首席技术官周靖人展示了阿里云全面升级的AI基础设施产品家族。例如,最新上线的磐久AI服务器,支持单机16卡、显存1.5T,并提供AI算法预测GPU故障,准确率达92%;为AI设计的高性能网络架构HPN7.0,可稳定连接超过10万个GPU,模型端到端训练性能提升10%以上;人工智能平台PAI已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%。

除了性能的不断提升,阿里云上AI算力成本也在持续下降,企业使用模型的成本越来越低。会上,阿里云宣布通义千问三款主力模型再次大幅降价,最高降幅85%,百万tokens价格低至0.3元。过去半年,阿里云百炼平台持续降低大模型调用的门槛,进一步推动大模型的普惠。自首次宣布降价后,阿里云百炼付费客户数较上一个季度增长超过200%,大批企业和开发者放弃私有化部署,选择直接在百炼上调用各类AI模型。

力度前所未有!阿里云宣布全力投入AI大基建
“我们降价的主要原因是技术优化。目前,模型不仅在快速迭代,其推理架构和系统优化也在不断提升。经过数月的努力,我们成功提高了模型推理的效率,这包括云基础设施和模型结构的改进,从而进一步降低了模型推理的成本。”周靖人表示。

随着AI基础设施的不断升级及算力成本的指数级下降,AI在各行各业的渗透率还将继续提升。据悉,目前中国一汽、联想、微博、携程、喜马拉雅、三得利(中国)等30多万企业客户已经接入通义大模型;未来,生物医药、工业仿真、气象预测、游戏等行业还在加速拥抱大模型。

“我们希望企业和开发者能以最低的成本做AI、用AI,让所有人都能用上最先进的大模型。”周靖人表示。今天大模型的算力成本相比未来庞大的应用来说,仍然有降低的空间,阿里云还会继续将推进AI基础设施建设,将企业调用token的资费降到足够低,为未来应用的爆发创造条件。