作为一名关注人工智能基础设施的研究者,我深入探讨了AI Infra在大模型应用中的核心地位。

业内有一句广为流传的谚语:“当大家都去挖金矿时,卖铲子的最赚钱。”

在19世纪中叶的淘金热中,挖金矿的死了一波又一波,反而哪些卖铲子、卖牛仔裤的人赚得盆满钵满。正如卖铲人在淘金热中成为最大赢家,在当今AIGC时代AI Infra也扮演着类似的角色。

大模型这座金矿刚刚开始挖掘的当下,挖金子的AI还没有盈利,卖铲子的英伟达却赚翻了,市值一度冲破3万亿美元,超过苹果成为仅次于微软的全球第二大公司。

AI Infra是指在大模型生态系统中,链接算力和应用的中间层基础设施,包括硬件、软件、工具链和优化方法等,是一个整体解决方案。

如果用云计算三层构架做类比,AI Infra与PaaS层级相似,为大模型应用开发提供一站式模型算力部署和开发工具平台。算力、算法、数据可以看作IaaS层,各种开源和闭源模型则是SaaS在大模型时代的新演变,即MaaS。

AI Infra:大模型应用背后的金矿时代

大模型应用落地的进程在不断加速,AI Infra的价值潜力被进一步释放。中金数据预测,目前,AI Infra产业处于高速增长的发展早期,未来3-5年内各细分赛道空间或保持30%+的高速增长。

对AI Infra的看好也在资本层面有所反映。由袁进辉创建的主攻推理框架的初创公司硅基流动,近日完成天使轮+融资,融资金额近亿元人民币。半年时间内硅基流动已经经历两轮融资,今年1月刚刚完成5000万元的天使轮融资。

与袁进辉创业方向相同,前阿里副总裁贾扬清在去年成立Lepton AI,据公开消息披露,现已完成天使轮融资由Fusion Fund基金、CRV风投两家机构投资。

随着大模型进入大规模应用落地时期,提供大模型训练、部署和应用时所需的基础设施成为关键一环,AI Infra成为大模型应用爆发背后“掘金卖铲”的最佳生意。

AI Infra:大模型应用背后千亿市场的“掘金卖铲”生意

相比模型价值,卷ai应用成为行业共识。李彦宏坚信,基础模型之上将诞生数以百万计的应用,它们对于现有业态的改造作用,比从0到1的颠覆作用更大。

如今ai应用的供给在不断增加,IDC在年初时预测,2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和。

从最近的市场变化我们也能感知一二。最近视频生成类模型产品扎堆出现,快手的可灵、字节跳动的即梦、商汤的Vimi集体亮相,此外还有AI搜索产品、AI陪伴类产品等层出不穷。

大模型应用爆发趋势已然确定,根据InfoQ研究中心数据,2030年AGI应用市场规模将达4543.6亿元,模型应用层的巨大机会已经吸引了几乎各行各业的参与。

而在大模型应用之下,AI Infra成为其爆发的隐藏推手。

从开发流程角度看,一款大模型应用的开发,离不开数据准备、模型训练与调优、模型部署与应用以及后续的监控与维护。而AI Infra就是为AI应用开发者提供算力与工具需求。

如果把开发AI应用看成建房子,那么AI Infra就是提供水泥钢筋的施工队。AI Infra施工队的价值点在于它是一个集成平台,将下层的算力芯片层与上层的AI应用层打通,让开发者实现一键调用,并且实现降低算力成本、提升开发效率并且保持模型优秀性能的效果。

让应用更简单,让AI落地更便捷,是AI Infra的使命。可以说,AI应用的市场有多大,AI Infra的机会就有多多。

大模型时代,AI Infra等对于模型训练和推理加速至关重要。随着大模型走入大规模应用落地时期,模型训练和推理效率、性能、成本效益等方面的优化变得尤为重要。此时,AI Infra则在其中发挥了关键作用。

实际上,AI Infra的价值主要集中在推理层,相比训练,推理的市场容量更大。

大模型训练说到底是巨头的游戏,且无论是谷歌微软还是百度、阿里他们都有自己完整的AI基础层,只做AI Infra的厂商在这方面机会不大。

而推理则不同,几乎所有的大模型公司、应用公司以及用大模型进行改造的各行业都需要推理,训练是模型生产的阶段性产物,而推理则在模型使用时是持续性的。

具体到数据处理量上,训练一个大型模型所需处理的token数量虽然庞大,通常达到几万亿到十万亿级别,但这仅是模型诞生前的准备阶段。而进入推理阶段后,模型的实际应用对数据处理的需求急剧上升,以OpenAI为例,其单日生成的token量就可达一万亿至几万亿之巨,这意味着在极短的时间内,如一周内,所处理的数据量就可能远超训练阶段所需。

根据市场研究公司MarketsandMarkets的数据,全球大模型训练和推理市场规模预计将从2023年的125亿美元增长到2028年的563亿美元,AI Infra的“掘金卖铲”生意潜力巨大。

大模型部署成本降低10000倍

“如何把大模型部署成本降低10000倍?部署成本=芯片+软件+模型+云“,袁进辉在2024稀土开发者大会上这样谈到。

AI Infra作为提供大模型训练、部署和应用时所需的基础设施,快速、便宜和优质是最核心的三个问题,AI Infra要实现的就是在不牺牲模型性能的前提下尽可能降低模型部署成本。

成本、效率和性能是大模型发展中的不可能三角,在AI Infra赛道的玩家如何实现?

如果说模型层和应用层已经成为红海,那么AI Infra还是一片蓝海。

在国内专注AI Infra的公司并不多,硅基流动和无问芯穹是两家重量级玩家。该赛道的国外企业包括英伟达亚马逊以及贾扬清创建的Lepton AI等。

虽然,硅基流动与无问芯穹都聚焦AI Infra,但两者在服务重点、技术实现还是有很大差异。

硅基流动创始人袁进辉是一个AI领域的连续创业者,2017年创办一流科技,聚焦深度学习框架,打造出开源训练框架OneFlow,服务于大模型的生产,2023年被光年之外收购。

去年8月,袁进辉带领其核心团队成员从光年之外独立,成立硅基流动,聚焦AI Infra,服务模型大模型应用,瞄准推理领域,从头搭建了一套独立于伯克利的 vLLM和英伟达的TensorRT—LLM之外的推理框架—SiliconLLM。

除了独创的推理框架外,硅基流动目前还上线了一站式大模型API云服务平台SiliconCloud,支持Qwen2(7B)、GLM4(9B)、Yi1.5(9B)等开源模型免费使用,提供高性能文生图/视频加速库OneDif等产品。

SiliconCloud云服务平台在SiliconLLM和OneDif的加持优化下,能够让开发者在不牺牲性能的前提下,更低成本和更高效率地进行模型应用开发。

据悉,硅基流动的新产品SiliconCloud公测上线一个月后,平台用户日均调用数十亿Token。

比硅基流动早成立3个月的无问芯穹,在AI Infra上,着眼于软硬一体的整体解决方案,聚焦从算法到芯片、从芯片集群到模型、再从模型到应用的三阶段“M×N”中间层产品。

今年3月无问芯穹首次公测Infini-AI大模型开发与服务云平台,Infini-AI云平台共由三部分构成,分别是异构云管平台、一站式AI平台和大模型服务平台。

从目前来看,无问芯穹重点从多元异构算力入手,打破单一芯片品牌训练资源瓶颈,提高算力供给水平,降低模型部署成本。

在7月WAIC大会上,无问芯穹针对多芯片异构生态竖井的难题发布了异构分布式混训平台,以适应多模型与多芯片的格局。

目前国内市场上的芯片供应除了英伟达和AMD外,还存在大量国产芯片,而这种多芯片之间造成异构生态竖井,无问芯穹的底层解法是,提供高效整合异构算力资源的好用算力平台,以及支持软硬件联合优化与加速的中间件,让异构芯片真正转化为大算力。实现了混训算力利用率最高可达97.6%。

可以看到,无论是硅基流动还是无问芯穹,尽管他们的AI Infra路线不尽相同,但都有一个共同目标:降低大模型部署成本,助力大模型应用更快更好地落地。

除了以硅基流动和无问芯穹为代表的初创公司阵营,以阿里、腾讯、百度为代表的云计算厂商也是目前AI Infra的主要玩家。

云计算厂商凭借其雄厚的资本及深耕多年的技术积累,在AI Infra层有着极强的优势。

阿里云为例,阿里云在AI Infra层提供了包括灵骏智算集群、HPN 7.0网络架构、CPFS存储系统、Pai人工智能平台、魔搭社区和百炼平台等一系列产品和服务,覆盖了从基础设施到模型开发、训练、部署的全流程,已形成中国最完备的AI基础设施产品及服务,包括IaaS层、PaaS层和MaaS层的服务。

可以看到,阿里云通过提供高性能、高稳定性的AI计算服务,支持大模型训练和推理,以构建开放的AI应用生态。实际上,无论是阿里云还是其他云计算厂商,想要的不仅是“卖铲子”,更重要的是用AI驱动现有业务,覆盖条业务线,每一个场景。

云计算厂商“大而全”,初创公司“小而美”。大厂们从算力、数据、网络、存储等到模型再到开发工具链,构建大模型生态。

而初创公司,虽然不具备大厂们的全产业链,却也在AI Infra层发挥着重要作用,硅基流动盯住推理领域,独创推理框架SiliconLLM;无问芯穹用异构算力筑基AI Infra。他们沿着各自的路线在通往普惠性AGI之路上不断探索。

铲子难卖,金矿难挖

尽管在大模型应用爆发的当下,AI Infra层潜藏着巨大的生意。但是对于这些做AI Infra的公司来说,即使他们在自己的专业领域如此强大,在潮水的变化面前依然脆弱。

铲子难卖,金矿难挖。

英伟达CUDA生态已经发展了20年,在AI领域,最先进的模型和应用都首先在CUDA上跑起来。

每个硬件之间都有不同的接口,CUDA统一了不同接口之间的语言,让使用者能够用一套标准语言去使用不同硬件。在模型开发过程中,开发者势必会趋同于在同一个语言体系中去完成自己的开发。而这实际上就构成了英伟达CUDA生态厚度。

目前,CUDA生态在AI算力市场占据了90%以上的份额。不过随着AI模型的标准化,模型之间结构差异变小,不再需要调度多种大小模型,英伟达CUDA生态厚度在变薄。

即使如此,英伟达在算力市场也是绝对王者。贾扬清预测,英伟达在接下来的3~5年当中,还会是整个AI硬件提供商中绝对的领头羊,市场发展占有率不会低于80%。

尽管硅基流动和无问芯穹等AI Infra层的厂商有区别英伟达的优势,但在绝对垄断者面前,仍如蚍蜉撼树。

对AI Infra层的卖铲厂商来说,外有英伟达守矿人,堵在门口卖门票与铲子,好不容易找到一条进入金矿的小路,却发现,里面的挖矿人已经习惯“徒手”挖矿,不再接受新铲子。

在国内,企业为软件付费意愿低,且大多习惯集成式服务。国内SaaS投资已经降到冰点,如果AI Infra层厂商单靠卖硬件或软件难以实现商业化。

软硬件捆绑式销售成为这些厂家不约而同选择的商业化模式。

在无问芯穹创始人夏立雪看来,无问芯穹本质上扮演了一个运营商的角色:运营算力资源并提供所需工具。“我们看到了能够带着硬件,带着资源去售卖,而且客户是认可我们的价值的。”

和夏立雪想法相同,袁进辉同样认为,“当下绑定一个客户必须付费的产品,如硬件或云计算资源,一起卖软件,是能够跑通的。”

另外还有一个重要的商业化趋势——出海从市场空间看,有统计数字表明,目前生成式 AI 和大模型的海外需求是国内需求的几十到上百倍,全球化是AI Infra层厂商必须要做的事情。

做全球化还有一层重要原因,在海外,B端的软件付费服务难度较低,接受程度高。

硅基流动已与多家海外AIGC头部企业合作,成为公司第一批付费客户,在近期获得新一轮融资后,袁进辉表示,公司将会同步拓展海外市场。而贾扬清直接将公司建在海外,瞄准海外企业和国内想要拓展海外市场的企业。

商业模式标准化问题仍需AI Infra层厂商慢慢探索。

随着AI模型的标准化以及应用场景的爆发式增长,低成本、高性能的一站式模型部署方案势必占据重要生态位。对于大模型公司来说,一站式的模型部署方案不仅能够解决算力短缺和数据高效处理等问题,让企业能够专注于应用层面的落地难题;同时,通过集中式的资源管理和服务化,AI Infra可以帮助企业降低模型及应用开发成本。

不过,虽然AI Infra可以带来成本效益,但其初期的投资和维护成本仍然较高,对于初创公司来说仍是一个不小的挑战。

伴随着AI应用的快速发展,AI Infra需要能够快速适应新的变化和需求,增强基础设施的可扩展性和灵活性,而未来谁能够为多样化的应用场景提供个性化的大模型一站式部署方案或许就能够在这场竞争中胜出。

关于AI Infra的未来,夏立雪这样形容:“打开水龙头前,我们不需要知道水是从哪条河里来的。同理,未来我们用各种AI应用时,也不会知道它调用了哪些基座模型,用到了哪种加速卡的算力——这就是最好的AI Native 基础设施。”

随着AI应用的快速发展,AI Infra的未来充满了挑战与机遇。谁能为多样化的应用场景提供创新的解决方案,将在竞争中脱颖而出。