标签

华存案例 | 智谷方案破解AI大模型存储瓶颈,释放千卡集群算力

发布时间:2026-06-30 15:19阅读:2

面对千亿参数大模型的训练挑战,存储系统需具备何种速度方能匹配GPU算力?某人工智能研究院在集群规模不断扩大的过程中,遭遇传统存储受限于以太网带宽、网络丢包及冷热数据统一存储成本高昂等难题,极易引发GPU算力闲置及训练任务中断。

华存智谷助力该研究院成功落地训推大模型存储实践,采用高效分层数据存储方案。该方案基于TGStor 9800高性能并行文件系统与RoCE无损RDMA网络构建存算分离底座,利用HSM分层技术连通高性能存储与大容量对象存储,全面支撑大模型预训练、数据集处理及推理业务。目前,该方案已完成全流程测试与生产环境验证,为千卡级集群提供了可靠参考。

该研究院搭建AI大模型训推测试底座,规划超40台AI算力服务器组建训练集群,承载千亿参数模型训练、海量语料预处理及模型迭代推理等业务。整体存储方案采用热温冷数据分层模式,部署华存智谷TGStor 9800高性能并行文件存储与华为OceanStor Pacific大容量对象存储,搭配华为CE系列交换机构建RoCE无损网络。算力集群部署高性能Posix客户端,借助OFED RDMA驱动、PFC/DSCP精细化QoS流控、多路径及HSM冷热分层存储等技术,实现高性能、高可靠、低成本的统一数据湖。当前已完成全集群部署调试,稳定支撑多任务并行大模型训练测试,并顺利扩容至生产环境。

图:存储方案架构图

1、存储方案整体架构

华存智谷主导整体存储方案,从数据流向分析,系统由计算层、IO服务层、智能盘框、网关层、归档层及交换网络层构成:

1)计算层:AI算力服务器集群(OS为Ubuntu22.04),搭载ConnectX-6网卡,部署并行文件系统专属客户端作为训练客户端,部分算力服务器按需采用Lustre开源客户端;

2)IO服务层:4台TGStor 9821FE文件引擎,配备25GE/100G/200G RoCE多网卡,内置华存智谷并行文件系统软件,组建并行文件集群;

3)网关层:2台对象网关服务器,内置网关服务软件,部署RDMA OFED驱动和文件客户端以对接对象存储;其中一台网关被选为存储集群仲裁节点;

4)智能盘框:2台 OceanDisk 1610(简称“智能盘框”)双控全闪存,配置36块 7.68TB NVMe SSD,采用RAID6冗余,划分MGT/MDT/OST三类独立资源池;

5)归档存储层:2台OceanStorPacific 9546(简称“对象存储”),提供S3服务,专门承接冷数据归档;

6)交换网络层:CE9865承载100G/200G RoCE无损业务网;CE6885提供25GE带内管理;CE5855 GE交换机实现设备带外远程管理。

2、组网拓扑

1)业务RoCE网络拓扑:4台TGStor 9821FE采用200G RoCE上联CE9865 Spine交换机,41台AI算力节点采用100G RoCE接入Spine;每台智能盘框通过8条 100G RoCE 链路直连2台TGStor 9821FE,确保存储流量无收敛瓶颈。

2)管理网络拓扑:所有文件引擎、网关、算力及对象存储设备通过双25GE端口接入CE6885管理交换机;全部设备独立GE管理口接入CE5855带外交换机。

3)存储分层拓扑:算力节点→RoCE 网络→TGStor 9821FE→智能盘框;S3网关同步对接并行文件系统与对象存储(冷层),HSM 服务实现两层数据自动流转。

3、并行文件系统存储资源分层架构 两台智能盘框划分差异化资源池以匹配AI混合负载:

1)MGT资源池(智能盘框1专属):1×1GiB LUN,Performance模式,用于存储文件系统全局元数据;

2)MDT资源池(智能盘框1+智能盘框2各4×0.5TiB LUN):Performance模式,优化海量小文件元数据访问;

3)OST资源池(智能盘框1+智能盘框2各8×25.6TiB LUN):Bandwidth带宽优先模式,承载大模型、Checkpoint大文件读写。

4、方案关键技术 1)RDMA RoCE 无损网络技术。全链路100G/200G高速RoCE网络,部署PFC基于优先级无损流控结合PCP/DSCP双层QoS,区分元数据与训练数据流量优先级,彻底消除网络丢包与时延抖动;文件引擎、网关、计算节点业务网卡采用mode4链路聚合,提升链路冗余与带宽。

2)华存智谷并行文件系统高性能集群。4台TGStor 9821FE构建高可用服务集群,MGT/MDT/OST资源池物理隔离;智能盘框采用RAID6加双控硬件冗余,UltraPath NVMe多路径绑定固定盘符,规避链路切换导致的盘符漂移;独立仲裁节点防止集群脑裂,全节点统一NTP时钟源消除时间偏移故障。

3)HSM智能冷热分层存储技术。打通高性能并行文件系统存储与大容量分布式对象存储,自动识别文件访问频次,将长期闲置的历史数据集、过期模型自动下沉至低成本对象存储,训练任务需要时无感回迁,对AI训练框架完全透明,有效平衡性能与存储成本。

4)双平面统一运维管理技术。分离业务流量与管理流量,25GE带内网络负责集群业务配置与数据调度,GE带外网络独立管控硬件设备;设置分级容量告警,使用率80%触发常规告警、90%触发紧急预警,提前规避因存储满容导致的训练中断。

5)多协议融合数据访问技术。并行文件系统存储提供POSIX标准文件接口以满足GPU训练读写需求,S3网关对接文件系统输出标准S3对象接口,一套存储底座同时支撑模型训练、数据标注、素材归档全业务流程。

(一)训练IO性能大幅提升,GPU算力利用率显著提高

全链路无损RoCE RDMA网络消除了网络丢包与IO阻塞,MDT、OST资源池分别优化了小文件元数据与大文件顺序吞吐,算力集群节点在大规模并发读写时无性能衰减,彻底解决了大模型训练过程中GPU等待数据闲置的问题,可稳定支撑千亿参数大模型的多任务并行训练。最终数据存放NVMe硬盘至Spine交换机收敛比保持1:1,无带宽瓶颈,满足高并发Checkpoint写入及海量数据集批量读取的业务负载。

(二)冷热分层存储落地,大幅降低整体存储采购与运维成本

华存智谷提供HSM自动分级机制,将高频训练数据保存在高性能NVMe全闪存并行文件系统存储中,低频历史数据集、废弃模型自动归档至低成本大容量分布式对象存储,无需全部采购高价全闪存储,使存储硬件综合投入显著下降;数据迁移全程自动化,无需人工拷贝转移文件,不中断正在运行的训练任务,有效减少人工运维工作量。

(三)全链路高可靠架构,保障AI 训推业务持续稳定运行。

硬件层面实现服务器双电源、存储双控、多链路RoCE冗余及SSD RAID6数据保护;软件层面构建并行文件系统高可用集群、多路径盘符固化、独立仲裁节点及统一NTP时钟,规避集群异常;带内和带外的双管理网络隔离业务与运维流量,硬件故障、链路故障可自动切换,满足7×24小时不间断模型迭代训练需求;分级容量告警机制提前预警存储资源不足,规避业务中断风险。

1、业务价值

1)构建统一AI全流程数据湖,同时提供POSIX并行文件、S3对象双协议,覆盖数据集预处理、大模型训练、模型推理、素材归档全业务链路,消除多套存储的数据孤岛;

2)无损RDMA并行存储底座消除IO性能瓶颈,充分释放GPU算力,缩短大模型训练迭代周期,提升研究院算法研发效率;

3)存算分离弹性架构,算力、存储资源可独立扩容,能够平滑支撑从当前测试环境升级至千卡级生产大模型集群,业务扩容无需重构整体架构。

2、成本价值

1)通过HSM冷热分层存储,区分热、冷数据存储介质,减少高价NVMe全闪存采购规模,存储硬件综合TCO降低40%以上;

2)自动化数据迁移、双平面集中运维大幅减少人工操作,降低存储运维人力成本。

3、生态价值

1)完美兼容Mellanox网卡、OFED开源驱动、Lustre开源客户端、Ubuntu算力客户端等主流AI开源软件栈,适配各类大模型训练框架;

2)打通高性能并行文件与分布式对象存储,完善AI数据存储全生命周期解决方案,丰富RDMA无损存储产品生态;

3)硬件与软件架构标准化,可快速复制至高校AI实验室、人工智能企业、算力中心等同类大模型训推场景。