华存案例 | 智谷方案破解AI大模型存储瓶颈，释放千卡集群算力

发布时间：2026-06-30 15:19阅读：2

面对千亿参数大模型的训练挑战，存储系统需具备何种速度方能匹配GPU算力？某人工智能研究院在集群规模不断扩大的过程中，遭遇传统存储受限于以太网带宽、网络丢包及冷热数据统一存储成本高昂等难题，极易引发GPU算力闲置及训练任务中断。

华存智谷助力该研究院成功落地训推大模型存储实践，采用高效分层数据存储方案。该方案基于TGStor 9800高性能并行文件系统与RoCE无损RDMA网络构建存算分离底座，利用HSM分层技术连通高性能存储与大容量对象存储，全面支撑大模型预训练、数据集处理及推理业务。目前，该方案已完成全流程测试与生产环境验证，为千卡级集群提供了可靠参考。

该研究院搭建AI大模型训推测试底座，规划超40台AI算力服务器组建训练集群，承载千亿参数模型训练、海量语料预处理及模型迭代推理等业务。整体存储方案采用热温冷数据分层模式，部署华存智谷TGStor 9800高性能并行文件存储与华为OceanStor Pacific大容量对象存储，搭配华为CE系列交换机构建RoCE无损网络。算力集群部署高性能Posix客户端，借助OFED RDMA驱动、PFC/DSCP精细化QoS流控、多路径及HSM冷热分层存储等技术，实现高性能、高可靠、低成本的统一数据湖。当前已完成全集群部署调试，稳定支撑多任务并行大模型训练测试，并顺利扩容至生产环境。

图：存储方案架构图

1、存储方案整体架构

华存智谷主导整体存储方案，从数据流向分析，系统由计算层、IO服务层、智能盘框、网关层、归档层及交换网络层构成：

1）计算层：AI算力服务器集群（OS为Ubuntu22.04），搭载ConnectX-6网卡，部署并行文件系统专属客户端作为训练客户端，部分算力服务器按需采用Lustre开源客户端；

2）IO服务层：4台TGStor 9821FE文件引擎，配备25GE/100G/200G RoCE多网卡，内置华存智谷并行文件系统软件，组建并行文件集群；

3）网关层：2台对象网关服务器，内置网关服务软件，部署RDMA OFED驱动和文件客户端以对接对象存储；其中一台网关被选为存储集群仲裁节点；

4）智能盘框：2台 OceanDisk 1610（简称“智能盘框”）双控全闪存，配置36块 7.68TB NVMe SSD，采用RAID6冗余，划分MGT/MDT/OST三类独立资源池；

5）归档存储层：2台OceanStorPacific 9546（简称“对象存储”），提供S3服务，专门承接冷数据归档；

6）交换网络层：CE9865承载100G/200G RoCE无损业务网；CE6885提供25GE带内管理；CE5855 GE交换机实现设备带外远程管理。

2、组网拓扑

1）业务RoCE网络拓扑：4台TGStor 9821FE采用200G RoCE上联CE9865 Spine交换机，41台AI算力节点采用100G RoCE接入Spine；每台智能盘框通过8条 100G RoCE 链路直连2台TGStor 9821FE，确保存储流量无收敛瓶颈。

2）管理网络拓扑：所有文件引擎、网关、算力及对象存储设备通过双25GE端口接入CE6885管理交换机；全部设备独立GE管理口接入CE5855带外交换机。

3）存储分层拓扑：算力节点→RoCE 网络→TGStor 9821FE→智能盘框；S3网关同步对接并行文件系统与对象存储（冷层），HSM 服务实现两层数据自动流转。

3、并行文件系统存储资源分层架构两台智能盘框划分差异化资源池以匹配AI混合负载：

1）MGT资源池（智能盘框1专属）：1×1GiB LUN，Performance模式，用于存储文件系统全局元数据；

2）MDT资源池（智能盘框1+智能盘框2各4×0.5TiB LUN）：Performance模式，优化海量小文件元数据访问；

3）OST资源池（智能盘框1+智能盘框2各8×25.6TiB LUN）：Bandwidth带宽优先模式，承载大模型、Checkpoint大文件读写。

4、方案关键技术 1）RDMA RoCE 无损网络技术。全链路100G/200G高速RoCE网络，部署PFC基于优先级无损流控结合PCP/DSCP双层QoS，区分元数据与训练数据流量优先级，彻底消除网络丢包与时延抖动；文件引擎、网关、计算节点业务网卡采用mode4链路聚合，提升链路冗余与带宽。

2）华存智谷并行文件系统高性能集群。4台TGStor 9821FE构建高可用服务集群，MGT/MDT/OST资源池物理隔离；智能盘框采用RAID6加双控硬件冗余，UltraPath NVMe多路径绑定固定盘符，规避链路切换导致的盘符漂移；独立仲裁节点防止集群脑裂，全节点统一NTP时钟源消除时间偏移故障。

3）HSM智能冷热分层存储技术。打通高性能并行文件系统存储与大容量分布式对象存储，自动识别文件访问频次，将长期闲置的历史数据集、过期模型自动下沉至低成本对象存储，训练任务需要时无感回迁，对AI训练框架完全透明，有效平衡性能与存储成本。

4）双平面统一运维管理技术。分离业务流量与管理流量，25GE带内网络负责集群业务配置与数据调度，GE带外网络独立管控硬件设备；设置分级容量告警，使用率80%触发常规告警、90%触发紧急预警，提前规避因存储满容导致的训练中断。

5）多协议融合数据访问技术。并行文件系统存储提供POSIX标准文件接口以满足GPU训练读写需求，S3网关对接文件系统输出标准S3对象接口，一套存储底座同时支撑模型训练、数据标注、素材归档全业务流程。

（一）训练IO性能大幅提升，GPU算力利用率显著提高

全链路无损RoCE RDMA网络消除了网络丢包与IO阻塞，MDT、OST资源池分别优化了小文件元数据与大文件顺序吞吐，算力集群节点在大规模并发读写时无性能衰减，彻底解决了大模型训练过程中GPU等待数据闲置的问题，可稳定支撑千亿参数大模型的多任务并行训练。最终数据存放NVMe硬盘至Spine交换机收敛比保持1:1，无带宽瓶颈，满足高并发Checkpoint写入及海量数据集批量读取的业务负载。

（二）冷热分层存储落地，大幅降低整体存储采购与运维成本

华存智谷提供HSM自动分级机制，将高频训练数据保存在高性能NVMe全闪存并行文件系统存储中，低频历史数据集、废弃模型自动归档至低成本大容量分布式对象存储，无需全部采购高价全闪存储，使存储硬件综合投入显著下降；数据迁移全程自动化，无需人工拷贝转移文件，不中断正在运行的训练任务，有效减少人工运维工作量。

（三）全链路高可靠架构，保障AI 训推业务持续稳定运行。

硬件层面实现服务器双电源、存储双控、多链路RoCE冗余及SSD RAID6数据保护；软件层面构建并行文件系统高可用集群、多路径盘符固化、独立仲裁节点及统一NTP时钟，规避集群异常；带内和带外的双管理网络隔离业务与运维流量，硬件故障、链路故障可自动切换，满足7×24小时不间断模型迭代训练需求；分级容量告警机制提前预警存储资源不足，规避业务中断风险。

1、业务价值

1）构建统一AI全流程数据湖，同时提供POSIX并行文件、S3对象双协议，覆盖数据集预处理、大模型训练、模型推理、素材归档全业务链路，消除多套存储的数据孤岛；

2）无损RDMA并行存储底座消除IO性能瓶颈，充分释放GPU算力，缩短大模型训练迭代周期，提升研究院算法研发效率；

3）存算分离弹性架构，算力、存储资源可独立扩容，能够平滑支撑从当前测试环境升级至千卡级生产大模型集群，业务扩容无需重构整体架构。

2、成本价值

1）通过HSM冷热分层存储，区分热、冷数据存储介质，减少高价NVMe全闪存采购规模，存储硬件综合TCO降低40%以上；

2）自动化数据迁移、双平面集中运维大幅减少人工操作，降低存储运维人力成本。

3、生态价值

1）完美兼容Mellanox网卡、OFED开源驱动、Lustre开源客户端、Ubuntu算力客户端等主流AI开源软件栈，适配各类大模型训练框架；

2）打通高性能并行文件与分布式对象存储，完善AI数据存储全生命周期解决方案，丰富RDMA无损存储产品生态；

3）硬件与软件架构标准化，可快速复制至高校AI实验室、人工智能企业、算力中心等同类大模型训推场景。

← 上一篇：人工智能从辅助走向重塑——航空基建亟待前瞻布局下一篇：周剑：招首席科学家，要的是那股不甘心的劲儿 →