华为AI存储助力中国移动构建超大规模智算集群

　　大模型领域普遍存在规模化定律，即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式 AI的运行主要基于深度学习原理，其发展离不开海量数据信息的投入。面对智算集群目前存在的可用度、推理体验等问题，华为推出业界首款AI存储——OceanStor A800，致力于成为支撑智算集群发展的关键基座。

智算集群为千行万业发展新质生产力夯基筑石

近年来，智能计算已经成为推动社会发展进步的重要力量。从计算机视觉到自然语言处理、多模态等基础大模型研究，再到面向自动驾驶、生命科学等重点行业的专用大模型研发，各行各业都展示出对智能算力的巨大需求。

中国移动抢抓数字经济发展新机遇，立足自身资源禀赋和能力优势，以算为中心、以网为根基、以存为引擎，打造多种信息技术深度融合、可提供一体化服务的算力网络，对内满足“九天”人工智能大模型训练，对外面向千行万业提供一站式智能计算服务，加快发展新质生产力。

借助智算集群提供的服务，运营商行业加速数智化转型，可汇聚数百万个基站、数亿用户以及数百PB级历史数据，实现L4级网络自动驾驶；金融行业可对信贷申请进行快速处理，时间从原来的数天缩短到一分钟，甚至最快一秒钟即可完成审批。

华为 AI数据湖方案助力中国移动智算中心构建坚实底座

中国移动智算中心（哈尔滨）节点充分利用中国移动（哈尔滨）数据中心软硬件优势、自然冷源地域优势，提前4个月攻坚完成3千多平方米机房的供电、制冷、建筑结构等重大调整改造，涉及5000多台设备、7万多根线缆、20多万个端口、千万级精密器件的大规模集群复杂施工。在30多个单位、千余人的协同支持下，历经7个月时间，超万卡规模智算集群建成，存力规模达150PB。

在智能融合分级存储集群的设计初期，中国移动面临几大挑战：在吞吐性能方面，万亿级参数大模型需要至少10TB/秒的吞吐量，而传统存储系统难以满足这一要求；在多协议处理方面，数据从归集到处理再到训练，涉及对象存储和文件存储的频繁转换，这对传统存储架构是一个巨大挑战；在数据管理效率方面，随着数据的动态变化，热数据与冷数据需要按需流动，传统系统主要依赖人工干预，效率较低。

为应对上述挑战，华为为中国移动提供AI数据湖解决方案，构建智算中心数据底座，实现聚合带宽8TB/秒，IOPS（每秒读写次数）达2.3亿。受益于AI数据湖高可靠、高性能等特点，大幅降低集群故障概率，缩短了断点续训时间，使得90天单训练周期内GPU的等待时间从7天减少到2天。

在训练方面使智算集群实现从“堆算力”到“提效率”的转化

华为推出AI数据湖解决方案，基于OceanStor AI存储和OceanStor Pacific分布式存储的诸多技术创新，可支撑千亿/万亿级参数大模型高效训练与推理。

大模型训练系统对算力需求很大，计算密度空前，对数据吞吐量的要求也与时俱增，要求达到传统应用的数十倍甚至百倍。对于存储来说，首先就是要快速将数据源源不断地投入大模型。

为最大程度发挥每块算力卡的“潜力”，华为OceanStor A800首创数控分离架构，让数据从接口卡直接传输到存储介质，避免CPU和内存等潜在的瓶颈，大幅提升存储带宽和IOPS能力。在2024年MLPerf TM存储基准性能测试比拼中，OceanStor A800荣登榜首，其2节点性能高达679 GB/秒。

面对训练过程中的海量数据汇聚与高效存储问题，华为AI数据湖解决方案构建了全局文件系统、无损多协议互通、EB级扩展以及热温冷数据智能分级存储等能力，用一套存储实现AI各阶段数据的免拷贝和格式免转换，加速数据价值释放，并实现整体拥有成本（TCO）最优。

在推理方面使大模型实现从“快思考”到“慢思考”的转化

大模型产品具有即时问答的“快思考”能力，让AI变得更“聪明”，就要使其具备逻辑梳理、应对变化的“慢思考”能力。

使AI具备“慢思考”的能力，关键在于记录下AI推理过程中的每一次“思考”结果，使其再遇到相同的复杂问题时不需要重新计算。专门记录大模型思考结果的存储被称为“长记忆内存型存储”，作为内存的扩展，以分级的方式实现月级/年级的记忆能力，甚至是“终生”记忆能力。

华为OceanStor A800是业界首款提供“长记忆”能力的存储，通过“多级键—值缓存（KV—Cache）机制”将所有的思考结果持久化保存并高效使用，让大模型推理具备“慢思考”能力，以减少大模型在预填充阶段的重复计算。如此，客户进行AI推理的时延可降低近八成，单个计算卡的吞吐量提升约2/3，可在实现推理体验提升的同时降低成本。

如今，智算中心正从千卡集群向万卡甚至超万卡集群演进。华为将与中国移动等企业持续深入合作，一起应对超万卡集群建设和运营带来的前所未有的挑战，抓住人工智能发展的历史机遇，打造自主创新的智算中心可靠数据底座。

七个圈AIGC破圈俱乐部欢迎您！

8.4万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.6万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.2万用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.9万用户在看

华为AI存储助力中国移动构建超大规模智算集群

最近更新

文章目录

华为AI存储助力中国移动构建超大规模智算集群

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

8.4万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.6万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.2万 用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.9万 用户在看

华为AI存储助力中国移动构建超大规模智算集群

最近更新

文章目录

华为AI存储助力中国移动构建超大规模智算集群

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

8.4万用户在看

6.6万用户在看

5.2万用户在看

4.9万用户在看