标签

华存案例 | 智谷方案破解AI大模型存储瓶颈,释放千卡集群算力

面对千亿参数大模型的训练挑战,存储系统需具备何种速度方能匹配GPU算力?某人工智能研究院在集群规模不断扩大的过程中,遭遇传统存储受限于以太网带宽、网络丢包及冷热数据统一存储成本高昂等难题,极易引发GPU算力闲置及训练任务中断。华存智谷助力该研究院成功落地训推大模型存储实践,采用高效分层数据存储方案。该方案基于TGStor 9800高性能并行文件系统与RoCE无损RDMA网络构建存算分离底座,利用HSM分层技术连通高性能存储与大容量对象存储,全面支撑大模型预训练、数据集处理及推理业务。目前,该方案已完成全流

2026-06-30 15:19:24  |  2 阅读