AI重塑存储：趋势走向、挑战应对与SSD技术迭代 | SNIA-SDC StorageAI 2026(Kioxia)

发布时间：2026-05-03 08:06阅读：44

此页重点揭示AI训练数据点呈指数级上升的态势。1950至2010年间，AI系统训练数据点的年增长率为1.3倍，而2010至2025年这一速率跃升至2.5倍/年；数据规模从1950年Perception Mark I的100个数据点，一路攀升至TD-Gammon的百万级、AlexNet的万级、2017年Transformer的1亿级、GPT-1的10亿级，最终GPT-4突破1万亿个训练数据点，生动展现了AI训练数据规模的极速膨胀。

该页面展示了2025至2031年数据中心NAND闪存比特需求在不同工作负载下的分布及增长态势。在总NAND比特需求中，AI推理占据56%，AI训练占11%，传统负载占14%；2025至2031年间，AI推理比特需求的复合年增长率（CAGR）达34%，AI训练及传统负载亦同步增长，并指出AI存储重心正由训练转向推理（聚焦Token/秒、Token/美元），且进一步拓展至智能体AI、边缘AI及物理AI范畴。

生成式AI的演进促使SSD产品向四大方向演进，并辅以铠侠SSD系列方案进行阐述。这四大方向涵盖超高IOPS、高性能高容量、高容量及低成本归档；同时列出了铠侠对应的SSD系列：GP系列专为适配NVIDIA Storage-Next打造，采用PCIe Gen6~及XL-FLASH 512B访问；CM系列针对KV缓存复用，基于PCIe Gen5~高OP TLC；LC系列用于数据摄取与RAG，采用QLC（122TB/245TB+）；规划中替代HDD的方案面向归档，采用低成本QLC（256TB+）。

本页主要介绍NVIDIA Storage-Next技术，其核心在于利用NVMe SSD来扩展GPU内存。该技术旨在解决HBM高带宽内存扩展受限及成本高昂的难题，能够支持比现有数据集大10-100倍的数据规模；支持GPU发起I/O（软件栈采用NVIDIA SCADA），使用细粒度I/O大小（512字节），可实现单GPU约200M IOPS的卓越性能，基于NVMe/PCIe接口实现。

本页阐述了新兴AI用例——近GPU缓存。该方案旨在解决高速网络中小数据访问效率低下的问题，数据湖通过大体积高效传输模式将数据加载至缓存，小规模读取请求则直接由本地SSD响应，由CPU发起I/O操作，从而优化AI场景下数据访问的效率与延迟表现。

本页介绍了NVIDIA ICMS（推理上下文内存存储平台），该平台由BlueField-4赋能，主要面向亿级规模推理及智能体AI。该平台为处理长上下文的AI系统提供快速长短时记忆，扩展AI智能体的长期记忆能力，支持集群级上下文的高带宽共享，提升Token/秒及能效；其核心能力涵盖Rubin集群级KV缓存、5倍于传统存储的能效、硬件加速KV缓存部署等，计划于2026年下半年推出，铠侠正与NVIDIA共同明确适配SSD需求，将采用PCIe Gen5/Gen6 TLC NVMe SSD。

本页列举了AI场景下SSD的六大高层核心需求：512B随机读取优化、更高的耐用性、高队列深度、液冷支持、多发起者访问以及更大的容量。

本页聚焦于SSD 512B随机读取优化的技术关键点。需要优化新的ECC布局，且无需绑定IU大小；以满足高并发要求为例：若读取延迟为45μ秒，要实现25M IOPS需重叠1125个并行I/O；若读取延迟降至25μ秒，则需重叠625个并行I/O。

本页进一步阐述512B随机读取优化的并发逻辑。以读取延迟45μ秒作为基准，若要实现每40纳秒完成一次I/O的效率，必须依靠大量并行I/O的重叠执行，从而满足超高IOPS下的并发读取需求。

本页说明了AI场景下提升SSD耐用性的需求。AI工作负载的特性与传统场景大相径庭，这推动了pSLC、pMLC闪存技术的应用；过度配置（OP）是提升耐用性的有效方案之一，需区分缓存与长期存储场景，耐用性要求从3 DWPD大幅提升至100 DWPD。

本页讲解了SSD高队列深度的重要性。高队列深度会直接影响I/O调度效率，可能引发队头阻塞问题，同时也与整体I/O延迟表现息息相关，是AI高并发场景下SSD的关键性能指标。

本页分析了SSD液冷方案的核心关注点。液冷技术主要旨在解决高功率散热难题，提升数据中心的能效，同时也面临着散热设计标准化的行业挑战。

本页阐述了SSD多发起者访问的技术要点。支持多发起者直接访问文件系统数据，实现LBA范围的租约管理、租约与发起者的映射、以及快速路径执行；同时需要应对碎片化、数据保护等技术层面的难题。

本页说明了SSD大容量化的背景与挑战。AI数据的持续增长驱动了对大容量的需求，同时需要考虑pSLC、pMLC产品型号的精简与库存管理问题，以在容量与供应链效率之间取得平衡。

本页介绍了铠侠适配NVIDIA Storage-Next的超高IOPS GP系列SSD规划。基于XL-FLASH技术，当前模拟器已可实现100+M IOPS，并支持GPU发起I/O（搭配NVIDIA SCADA）；计划于2026年底推出PCIe 6.0、第二代XL-FLASH的评估样片，实现512B随机读取10M IOPS且功耗低于25W；2027年将推出PCIe 7.0、第三代XL-FLASH产品，实现约100M 512B随机读取IOPS。

本页介绍了铠侠超高IOPS模拟器的研发阶段与硬件基础。第一阶段于2025年8月实现GH200单实例140M IOPS；第二阶段于2025年9月添加合成延迟、动态延迟调整及遥测统计；第三阶段基于SCADA运行应用与设备实验；目前仅NVIDIA GH200超级芯片可支撑100M+IOPS，X86 GPU系统因GPU-CPU带宽不足而无法实现。

本页展示了超高IOPS模拟器的延迟测试效果。在无延迟配置下实现了139.552M IOPS，添加延迟后降至97.488M IOPS，同时呈现了不同队列深度下的IOPS分布与延迟分布情况，从而验证了延迟对SSD性能的具体影响。

本页对比了铠侠超高IOPS SLC SSD与传统TLC SSD的性能表现。在3072线程下，SLC SSD达到了10.5M IOPS，其队列深度远低于TLC SSD；在8192线程下，两者的IOPS持平，但SLC SSD的队列深度依然更低，这体现了SLC架构在低队列深度下实现高IOPS的显著优势。

本页分析了PCIe带宽提升所带来的传输距离挑战。随着PCIe版本从3.0迭代至8.0，I/O带宽从8GT/s提升至256GT/s，但电气互连的传输距离却持续缩短，呈现出高带宽与短传输距离之间的矛盾；未来的互连趋势将从机箱内、机架内、机架间的电气连接，逐步向光互连方向演进。

← 上一篇：AI赋能一人设计店：告别为他人打工，拥抱智能创业新时代下一篇：零基础做AI一人公司：从0到1全流程 →