AI重塑存储:趋势走向、挑战应对与SSD技术迭代 | SNIA-SDC StorageAI 2026(Kioxia)
此页重点揭示AI训练数据点呈指数级上升的态势。1950至2010年间,AI系统训练数据点的年增长率为1.3倍,而2010至2025年这一速率跃升至2.5倍/年;数据规模从1950年Perception Mark I的100个数据点,一路攀升至TD-Gammon的百万级、AlexNet的万级、2017年Transformer的1亿级、GPT-1的10亿级,最终GPT-4突破1万亿个训练数据点,生动展现了AI训练数据规模的极速膨胀。
该页面展示了2025至2031年数据中心NAND闪存比特需求在不同工作负载下的分布及增长态势。在总NAND比特需求中,AI推理占据56%,AI训练占11%,传统负载占14%;2025至2031年间,AI推理比特需求的复合年增长率(CAGR)达34%,AI训练及传统负载亦同步增长,并指出AI存储重心正由训练转向推理(聚焦Token/秒、Token/美元),且进一步拓展至智能体AI、边缘AI及物理AI范畴。
生成式AI的演进促使SSD产品向四大方向演进,并辅以铠侠SSD系列方案进行阐述。这四大方向涵盖超高IOPS、高性能高容量、高容量及低成本归档;同时列出了铠侠对应的SSD系列:GP系列专为适配NVIDIA Storage-Next打造,采用PCIe Gen6~及XL-FLASH 512B访问;CM系列针对KV缓存复用,基于PCIe Gen5~高OP TLC;LC系列用于数据摄取与RAG,采用QLC(122TB/245TB+);规划中替代HDD的方案面向归档,采用低成本QLC(256TB+)。
本页主要介绍NVIDIA Storage-Next技术,其核心在于利用NVMe SSD来扩展GPU内存。该技术旨在解决HBM高带宽内存扩展受限及成本高昂的难题,能够支持比现有数据集大10-100倍的数据规模;支持GPU发起I/O(软件栈采用NVIDIA SCADA),使用细粒度I/O大小(512字节),可实现单GPU约200M IOPS的卓越性能,基于NVMe/PCIe接口实现。
本页阐述了新兴AI用例——近GPU缓存。该方案旨在解决高速网络中小数据访问效率低下的问题,数据湖通过大体积高效传输模式将数据加载至缓存,小规模读取请求则直接由本地SSD响应,由CPU发起I/O操作,从而优化AI场景下数据访问的效率与延迟表现。
本页介绍了NVIDIA ICMS(推理上下文内存存储平台),该平台由BlueField-4赋能,主要面向亿级规模推理及智能体AI。该平台为处理长上下文的AI系统提供快速长短时记忆,扩展AI智能体的长期记忆能力,支持集群级上下文的高带宽共享,提升Token/秒及能效;其核心能力涵盖Rubin集群级KV缓存、5倍于传统存储的能效、硬件加速KV缓存部署等,计划于2026年下半年推出,铠侠正与NVIDIA共同明确适配SSD需求,将采用PCIe Gen5/Gen6 TLC NVMe SSD。
本页列举了AI场景下SSD的六大高层核心需求:512B随机读取优化、更高的耐用性、高队列深度、液冷支持、多发起者访问以及更大的容量。
本页聚焦于SSD 512B随机读取优化的技术关键点。需要优化新的ECC布局,且无需绑定IU大小;以满足高并发要求为例:若读取延迟为45μ秒,要实现25M IOPS需重叠1125个并行I/O;若读取延迟降至25μ秒,则需重叠625个并行I/O。
本页进一步阐述512B随机读取优化的并发逻辑。以读取延迟45μ秒作为基准,若要实现每40纳秒完成一次I/O的效率,必须依靠大量并行I/O的重叠执行,从而满足超高IOPS下的并发读取需求。
本页说明了AI场景下提升SSD耐用性的需求。AI工作负载的特性与传统场景大相径庭,这推动了pSLC、pMLC闪存技术的应用;过度配置(OP)是提升耐用性的有效方案之一,需区分缓存与长期存储场景,耐用性要求从3 DWPD大幅提升至100 DWPD。
本页讲解了SSD高队列深度的重要性。高队列深度会直接影响I/O调度效率,可能引发队头阻塞问题,同时也与整体I/O延迟表现息息相关,是AI高并发场景下SSD的关键性能指标。
本页分析了SSD液冷方案的核心关注点。液冷技术主要旨在解决高功率散热难题,提升数据中心的能效,同时也面临着散热设计标准化的行业挑战。
本页阐述了SSD多发起者访问的技术要点。支持多发起者直接访问文件系统数据,实现LBA范围的租约管理、租约与发起者的映射、以及快速路径执行;同时需要应对碎片化、数据保护等技术层面的难题。
本页说明了SSD大容量化的背景与挑战。AI数据的持续增长驱动了对大容量的需求,同时需要考虑pSLC、pMLC产品型号的精简与库存管理问题,以在容量与供应链效率之间取得平衡。
本页介绍了铠侠适配NVIDIA Storage-Next的超高IOPS GP系列SSD规划。基于XL-FLASH技术,当前模拟器已可实现100+M IOPS,并支持GPU发起I/O(搭配NVIDIA SCADA);计划于2026年底推出PCIe 6.0、第二代XL-FLASH的评估样片,实现512B随机读取10M IOPS且功耗低于25W;2027年将推出PCIe 7.0、第三代XL-FLASH产品,实现约100M 512B随机读取IOPS。
本页介绍了铠侠超高IOPS模拟器的研发阶段与硬件基础。第一阶段于2025年8月实现GH200单实例140M IOPS;第二阶段于2025年9月添加合成延迟、动态延迟调整及遥测统计;第三阶段基于SCADA运行应用与设备实验;目前仅NVIDIA GH200超级芯片可支撑100M+IOPS,X86 GPU系统因GPU-CPU带宽不足而无法实现。
本页展示了超高IOPS模拟器的延迟测试效果。在无延迟配置下实现了139.552M IOPS,添加延迟后降至97.488M IOPS,同时呈现了不同队列深度下的IOPS分布与延迟分布情况,从而验证了延迟对SSD性能的具体影响。
本页对比了铠侠超高IOPS SLC SSD与传统TLC SSD的性能表现。在3072线程下,SLC SSD达到了10.5M IOPS,其队列深度远低于TLC SSD;在8192线程下,两者的IOPS持平,但SLC SSD的队列深度依然更低,这体现了SLC架构在低队列深度下实现高IOPS的显著优势。
本页分析了PCIe带宽提升所带来的传输距离挑战。随着PCIe版本从3.0迭代至8.0,I/O带宽从8GT/s提升至256GT/s,但电气互连的传输距离却持续缩短,呈现出高带宽与短传输距离之间的矛盾;未来的互连趋势将从机箱内、机架内、机架间的电气连接,逐步向光互连方向演进。