AI大模型持续发展趋势下,通信产业链厂商也面临新的发展机会与挑战。一方面,AI为通信技术本身的迭代演进打开更大商业化空间;另一方面,通信在大模型中也起到提供“运力”等关键作用。

近日举行的2024中国移动全球合作伙伴大会上,中国移动董事长杨杰指出,中国移动建成了全球规模最大、覆盖最广的5G网络,实现了通感一体、超前智能的5G-A网络商用。目前5G基站超230万个,5G-A商用城市超330个。5G应用已经成为产业转型升级的加速器。

同时他表示,以数智化为主要特征的新一轮科技革命和产业变革深入发展,数据、算力、人工智能成为新质生产力的重要驱动因素,引领经济社会从“互联网+”“5G+”迈向“AI+”,进入AI+新时代。

本次大会期间,21世纪经济报道记者就发现,诸多通信产业链合作伙伴在传统移动网络相关业务或应用之外,也在发力算力基础设施业务能力;在求商业化闭环的AI推理等层面,业界也有了新的思考。

完善基础设施

AI大模型基础设施主要包括以GPU为核心的算力资源、以存储为核心的存力资源、以通信方式为重点的运力资源多个方面。为此,通信产业链相关基础设施厂商均在探索多层面发力。

杨杰在演讲中分析,进入AI+新时代需要从四方面发力。首先是推动“AI+”设施升级,围绕“连接+算力+能力”,以算网大脑强化算力网络各类资源的一体化协同调度,提升通算、智算、边缘算力的互联效力,加速智算成网,这包括打造超万卡智算集群、沉淀数万亿tokens行业数据集、训练万亿参数AI大模型。

其次是推动“AI+”场景应用,包括围绕产业焕新打造智能经济,构建涵盖智能算力、MaaS(模型即服务)平台、行业大模型、产品应用的AI+DICT服务体系;围绕民生改善打造智能生活,强化AI智能体、比特数智人、家庭服务机器人等应用突破;围绕治理现代化打造智能社会,升级“AI+”城市超脑平台。同时推动“AI+”科技创新和“AI+”生态共建。

本次大会期间,中国移动发布九天善智多模态基座大模型,并推出30款自研行业大模型。据悉,基座大模型在长文本智能化解析、全双工语音交互视频与图像处理、结构化数据深度洞察等方面实现能力提升。

这个基于万卡国产算力集群和国产算法框架训练的全栈国产化全模态基座模型,适配了11个厂家17款国产AI芯片。全自研的30多个行业大模型,覆盖金融、交通、能源、制造等10多个行业。

合作伙伴也在与运营商联合推动业务落地。中兴通讯总裁徐子阳在演讲中指出,当前正处于一个加速且不确定的时代,面临市场碎片化、竞争跨界和可持续发展等诸多挑战。在30年前,CT和IT有所区别、各自发展,但现在二者正走向融合。这涉及六大核心根技术来促进ICT的融合:调制解调能力(如5G、PON)、网络能力、计算能力(如CPUGPU)、操作系统、数据库、AI能力。

为此,中兴通讯正与中国移动从全域智联的多个领域展开布局,助力建设新型基础设施;并秉承以网强算、训推并举、开放解耦的主张,提供全栈开放智算方案;同时也在深化研发范式变革。

其中,全栈开放主要指面向AI发展趋势下对智算领域的部署。徐子阳分析,当前AI产业发展面临三大难题:成本高、能耗大、商业模式没有形成完整闭环。

对此,可以从三方面缓解这些难题。首先是以网强算,“单颗GPU处理能力很重要,但以网强算、构建更大规模集群是重要方案。”他指出,中兴通讯与中国移动推进GPU的开放互联,联合研发新互联超节点AI服务器,突破传统GPU服务器的通信瓶颈。未来,还可将高带宽域(HBD)从机内扩展至机间互联,为构建更大规模的超节点奠定基础。

同时,训推并举才能加速商业闭环,中兴通讯与中国移动共同探索训推一体机,期望解决大模型商用的“最后一公里”难题。“智睿魔方AiCube”智算一体机已经赋能8个行业、20多个应用场景。此外要做到开放解耦,倡导推进软硬解耦、训推解耦、模型解耦。

发力AI基座

在搭建AI基座方面,英伟达十多年的软硬件沉淀令其成为今天的芯片霸主,但后来者也在试图通过合纵连横等方式求机会。

21世纪经济报道记者在现场了解到,在万卡智算集群算力基础设施方面,移动云围绕算力、存力、运力等方面正在探索构建闭环。

现场工作人员对记者介绍,在算力方面,移动云推出开放式架构COCA超节点,兼容异构芯片。“这是一种模块化设计。如果要组成更大规模的智算集群,可以通过增加更多节点完善。”

在运力方面则是搭建高性能立体网络,例如推进对以太网技术的优化。“目前以太网技术在效率、资源匹配等方面还达不到AI大模型的运算组网要求,在大规模AI集群更具优势的IB(Infiniband)技术目前由英伟达所主导,但英伟达的产品必须购买一整套解决方案,整体成本极高,这让搭建大规模AI数据中心的成本大幅提高,所以很多厂商也在推动以太网开放联盟,期望对抗IB生态。”前述人士续称,该联盟中既有国际芯片巨头如博通,也有应用端厂商如国内互联网巨头等,都在推动FARE(全自适应路由以太网)协议标准。

此外,21世纪经济报道记者在彩讯股份处了解到,针对AI大模型基础设施,其推出Rich AICloud智算基础设施底座,涵盖三层架构:底层是RichNet下一代AI原生云计算架构,中间层是可实现万卡集群管理的RichMOSS超大规模算力集群管理平台,顶层是针对大语言模型/文生图/视频的RichBoost高性能大模型训推平台。

据现场业务人员介绍,其中在底层的运力方面,目前数据中心内的高性能网络传输机制,已经从TCP/IP逐步切换到RDMA(远程直接内存访问)。而RoCE(RDMA over Converged Ethernet)是一种能在以太网上进行RDMA的集群网络通信协议,可以大幅降低以太网通信的延迟,提高带宽利用率。RichNet的RoCE网络交换机,基于RoCE以太网络带宽利用率可达到IB(Infiniband)网络的90%-96%。

目前彩讯Rich AICloud AI原生云计算解决方案已在多个千亿参数级别的大模型训练、推理、AI工具加速等方面落地。

交互范式新机遇

大模型基座持续演进过程中,商业化层面也在探寻新方向。

香港科技大学校董会主席、美国国家工程院外籍院士沈向洋进行了系统分析:在通用人工智能时代,应该需要怎样的大模型?这应从五个维度进行考量。

首先算力是门槛。根据第三方机构统计,随着大模型持续演进,对算力的需求已经超过了参数线性增长的趋势,算力需求量已经是大模型参数量的平方数,这也催生英伟达成为本轮大模型浪潮的最大赢家,推动半导体发展规律从摩尔定律走向黄氏定律。

其次,数据是关键。在OpenAI刚推出GPT3时,参数量级为2T tokens;演进到GPT4时是20T tokens;目前GPT5还没发布,但经预估要200T tokens,这时将加上多模态数据、合成数据等多种类型。有趣的是,过去30年来随着互联网的发展,大量数据进入互联网中,似乎就是在为今天GPT的爆发瞬间做准备。

此外算法还在不断进步。沈向洋指出,目前有两条路线值得探索。其中一条是GPT系列,推动从基于NLP(Natural Language Processing自然语言处理)的语言模型到基于CV(Computer Vision计算机视觉)的多模态、再到世界模型的发展道路,表现形态就是从ChatGPTGPT-4o再到具身智能的发展。其特点是培养快思考的能力、能直接给出答案,理念是压缩即智能。

另一条是激动人心的Srl系列,也即OpenAI最新发布的GPT-o1模型,实现从快思考到慢思考的范式转移,模型可以实现先打草稿,反复试错找到正确路径后,总结过程和答案,理念是完成目标即智能。

同时,大模型正横扫千行百业。沈向洋指出,并不是每家公司都需要自研基础大模型,而是可以在通用大模型基础上,基于千卡规模训练自己的行业大模型,甚至企业训练大模型只需要用百卡,实现企业数据价值的再发现。对于个人来说,手机和电脑等终端会越来越智能,未来每个人都会拥有自己的个性化模型,这也是主流厂商都在推动AI PC的原因。

由此,人工智能也在引发人们重新思考人机关系。回望商业历史,在互联网时代成就了搜索模式和Google公司,移动互联网时代成就了推荐算法和TikTok,人工智能时代目前是对话模式GPT和OpenAI暂时领先。

沈向阳认为,这意味着在每个时代都是通过人机交互革新,为人类提供更好的工具、帮助提高生产力。交互水平决定了商业发展,也让人工智能在新交互下的新机遇更令人充满期待。