人工智能大模型存储需求解析

发布时间：2026-04-03 13:49阅读：13

当我们谈论人工智能大模型（LLM）时，往往关注其训练和推理过程。然而，作为行业从业者，我们需要更细致地分类，以便根据不同环境、阶段和产品特性选择合适的服务器平台、CPU、内存、SSD或硬盘等组件。本文将从存储角度出发，探讨在不同情况下应选择哪种SSD或硬盘作为存储设备。

首先，数据中心机房存在电力供应限制。

“埃隆·马斯克多次强调电力供应是AI发展的关键因素，并将其视为未来AI竞争的‘决定性优势’。这一观点得到科技界和能源界的广泛认可。”Yahoo财经

其次，人工智能大模型的端到端生产流程包括六个阶段：数据摄取、数据准备、训练、检查点、推理和归档。

第三，我们需要考虑存储产品的特性。

接下来，我们将从上述三个维度分析，当人工智能大模型从业者面对存储产品时，应如何选择。

首先，数据中心机房面临电力供应限制。

全球范围内，许多数据中心项目遭遇电网接入延迟、电力容量不足等问题，甚至需要自建燃气电厂应对，特别是在美国。相比之下，我们的情况稍好一些，但电力不仅是成本问题，更是硬性约束：在固定的机房空间和电源容量下，能部署的GPU集群数量直接决定了训练和推理规模。

以一个50MW可用电源预算为例（大型AI数据中心常见），传统存储架构会大大限制整体算力密度。假设采用DGX H100机架（每机架约4台GPU服务器）搭配传统NAS存储：使用TLC性能层+ HDD对象层，每组NAS（16PB）功耗约为18kW，加上GPU机架本身的45kW功耗，整个DGX + NAS rack pair的总功耗较高。在这种配置下，50MW预算最多支持约675个DGX + NAS存储的机架组合。这意味着大量电力被存储系统占用，算力扩展空间被压缩。

而采用新一代all-QLC存储架构，如Solidigm QLC SSD最大容量达122.88TB，情况完全不同。存储功耗降至每48PB QLC仅约1.7kW，整体rack功耗控制在约45kW左右。同样50MW电源预算下，可支持的DGX + NAS存储机架组合数量提升至约1,000个，计算资源增加约50%。同时，机架数量减少至原来的1/9，存储能耗降低约90%。这意味着在电力受限的机房中，能部署更多GPU，获得更高的有效算力，无需额外扩容电源基础设施。

这种效率提升并非理论上的优化，而是实际的“电力解放”。当电力成为AI扩容的主要限制因素时，存储系统的功耗和密度不再仅仅是“后端问题”，而是直接影响整个数据中心TCO（总拥有成本）和部署速度的关键因素。选择低功耗、高密度的QLC方案，实际上是在用更少的电换取更多的训练和推理能力。

AI工作流阶段分析

为了防止资源浪费或性能瓶颈，LLM的生产流程分为六个主要阶段：数据摄取（Data Ingest）、数据准备（Data Prep）、训练（Training）、检查点（Checkpointing）、推理（Inference）和归档（Archive）。

这六个阶段的存储负载差异显著。检查点虽然属于训练的一部分，但由于其对大块顺序写入的需求与常规训练不同，需要单独考虑。

接下来，我们逐一分析每个阶段的存储需求：

1.数据摄取（Data Ingest）：高容量+顺序写入性能

该阶段主要将海量原始数据（文本、图像、视频等）从外部源快速引入数据中心。负载以大块顺序写入为主，同时需要极高的存储容量来容纳未处理的原始数据集。

2.数据准备（Data Prep）：顺序读写性能

数据准备包括清洗、标注、格式转换、shuffle等操作。存储负载特点是顺序读取原始数据+顺序写入预处理后的数据集，需要平衡的读写吞吐，避免成为训练前的瓶颈。

3.训练（Training）：随机读取性能

训练阶段是整个流程中最耗资的部分，GPU集群必须保持高利用率。核心存储需求是高随机读取性能——模型需要频繁、随机地从海量数据集中拉取样本。如果存储跟不上，GPU会频繁空闲，严重影响训练效率。

4.检查点（Checkpointing）：顺序写入性能

检查点是训练的一个子过程，但必须单独讨论。其负载模式与常规训练有显著差异：每隔一段时间（或固定步数），系统需要把当前模型参数、优化器状态等完整“快照”以大块顺序写入方式保存到存储中，用于容错恢复或继续训练。

一个百亿甚至万亿参数的LLM，单次检查点文件可能达到数TB甚至数十TB。如果写入速度不够快，检查点过程本身会占用大量GPU时间，降低整体训练吞吐。因此，该阶段对顺序写入性能要求极高，同时需要足够的容量来存放多个历史检查点。

5.推理（Inference）：随机读取性能

推理阶段（包括服务化部署、在线/批量推理）主要负载是随机读取模型权重和输入数据。延迟和吞吐直接影响用户体验或业务效率。尽管推理对写入需求较低，但仍需高随机读性能和低延迟。

6.归档（Archive）：高容量

训练完成后，原始数据、中间结果、历史模型和检查点等需长期保存。归档阶段的核心需求是高容量，对性能要求最低，但须兼顾极低功耗和TCO。

通过以上细分，可以看出：对象存储层（通常对应数据摄取和归档）适合用高容量、低功耗的QLC方案；而全闪存性能层（GPU服务器直连或高速访问的部分，对应训练、检查点、推理等）则需根据具体负载在TLC和QLC之间做精细平衡。

在实际部署中，许多领先的数据中心已采用“全QLC架构”或“混合TLC+QLC分层”策略，实现了存储功耗降低90%、机架数量减少至原来的1/9，同时让更多的电力流向GPU集群，最终使LLM的生产流程更快、更省、更规模化。

第三个维度是存储产品的特性。当前主流的企业级SSD主要分为TLC（三层单元，3-bit per cell）和QLC（四层单元，4-bit per cell）两类。两者底层架构差异直接决定了它们在成本、容量、性能、寿命四个关键指标上的表现，进而影响AI大模型生产流程中的选型决策。

TLC的优势与不足

TLC SSD长期以来是高性能存储的中坚力量。它具备较高的随机读写性能和相对稳定的写寿命（通常可达3~5 DWPD，即每日整盘写入次数），能够轻松应对训练阶段的密集随机读取和检查点的高频写入。然而，TLC的最大短板在于成本：相同容量下，TLC的单位GB价格通常是QLC的2~3倍。在AI大模型动辄PB级的数据规模下，全盘采用TLC会导致存储预算急剧膨胀，且TLC单盘最大容量（目前主流在30.72TB左右）低于QLC的顶配型号（如122.88TB），意味着同样总容量下需要更多盘位、更高机架空间和额外功耗。因此，纯TLC方案虽然性能强，但在大规模部署时经济性较差，尤其不适合数据摄取、归档等容量敏感型阶段。

QLC的优势与适用边界

QLC在每个存储单元中存储4 bit数据，密度更高，因此单盘容量轻松突破100TB，单位GB价格显著低于TLC。同时，QLC在顺序读写性能上并不逊色——现代企业级QLC SSD的顺序读取带宽可达6~7 GB/s，顺序写入也能维持在3~5 GB/s，完全能够满足数据摄取、检查点、归档等阶段的大块顺序读写需求。更重要的是，QLC的功耗密度极低：如Solidigm 122.88TB QLC盘，每PB功耗仅为传统HDD或TLC方案的几分之一，这对电力受限的数据中心而言是巨大优势。

但QLC也有其固有约束：写寿命较低（通常0.2~0.5 DWPD），且随机写入性能弱于TLC。如果直接用QLC承载训练阶段的高频小文件随机写入，可能会提前耗尽寿命或引发写放大。然而，在AI大模型的典型负载中——训练主要是随机读取，检查点是顺序大块写入，推理是随机读取——QLC的短板并不突出。只要避免将QLC用于高频率、小尺寸的随机写入场景（例如某些数据库日志），它就能在绝大多数AI流程中胜任。

产品特性维度的选型建议

综合TLC和QLC的特性差异，可以得出清晰的选型边界：

·训练阶段的高随机读取负载：如果预算充足且对延迟有极致要求，可选用TLC或高性能QLC（部分新一代QLC通过优化已大幅改善随机读性能）；若追求性价比，采用QLC也基本够用，因为随机读对QLC寿命影响很小。

·检查点、数据摄取、数据准备：这些阶段以顺序读写为主，QLC完全胜任，且成本、功耗、密度都远优于TLC。

·归档阶段：容量为王，QLC是最优解，甚至可考虑未来更大容量的PLC（五层单元）。

·推理阶段：以随机读为主，对延迟有一定要求。推荐使用缓存层（少量TLC或DRAM）加速热点模型，冷数据层用QLC存储全部模型权重。

实际部署中，领先的AI数据中心已普遍采用“热数据用TLC或DRAM缓存+冷数据全QLC”的分层架构，甚至开始尝试“全QLC直通”方案：只要通过软件层面优化写聚合，就能用QLC替代大部分TLC位置，从而在保障训练和推理性能的同时，将存储TCO降低60%以上。因此，在产品特性维度上，不必盲目追求全TLC，而应正视QLC的性价比和密度优势，根据负载特征灵活搭配。

在人工智能大模型（LLM）的存储选型中，电力供应、端到端生产流程的六个阶段，以及存储产品自身特性，这三个维度共同构成了决策的核心框架。

面对当前数据中心电力日益紧张的现实，传统HDD方案已难以满足高效AI基础设施的需求。其较高的功耗、较低的访问速度和较大的物理空间占用，成为限制GPU集群规模扩展的主要瓶颈。因此，率先淘汰HDD、全面转向SSD架构，已成为提升整体算力密度和降低TCO的必然趋势。

更进一步，LLM的生产流程并非单一负载，而是涵盖数据摄取、数据准备、训练、检查点、推理和归档六个不同阶段，每个阶段对存储的容量、顺序读写、随机读取性能以及功耗的要求均有显著差异。只有根据各阶段的具体负载特点，选择匹配的产品特性，才能真正实现性能与效率的最优平衡。

推荐的做法是：在对象存储层（数据摄取与归档）优先选用高容量、低功耗的高密度QLC SSD；在性能敏感层（训练、检查点、推理）则根据随机读取或顺序写入需求，灵活搭配合适的TLC或QLC方案。通过这种分层、精细化的存储策略，既能大幅降低存储系统的电力消耗，又能释放更多电源容量用于GPU计算，最终在有限的电力和空间条件下，实现更大的AI训练与推理规模。

电力将成为未来AI竞争的决定性优势，而存储选型正是其中可控且高回报的一环。及早采用全SSD架构，并针对不同生产阶段匹配最优的产品特性，将帮助企业和数据中心在AI时代获得更强的竞争力和更高的资源利用效率。

← 上一篇：太空AI与欧洲算力重塑全球基建格局下一篇：人工智能在司法中的幻觉及治理策略 →