标签

人工智能大模型存储需求解析

发布时间:2026-04-03 13:49来源:微信阅读:5

当我们谈论人工智能大模型(LLM)时,往往关注其训练和推理过程。然而,作为行业从业者,我们需要更细致地分类,以便根据不同环境、阶段和产品特性选择合适的服务器平台、CPU、内存、SSD或硬盘等组件。本文将从存储角度出发,探讨在不同情况下应选择哪种SSD或硬盘作为存储设备。

首先,数据中心机房存在电力供应限制。

“埃隆·马斯克多次强调电力供应是AI发展的关键因素,并将其视为未来AI竞争的‘决定性优势’。这一观点得到科技界和能源界的广泛认可。”Yahoo财经

其次,人工智能大模型的端到端生产流程包括六个阶段:数据摄取、数据准备、训练、检查点、推理和归档。

第三,我们需要考虑存储产品的特性。

接下来,我们将从上述三个维度分析,当人工智能大模型从业者面对存储产品时,应如何选择。

首先,数据中心机房面临电力供应限制。

全球范围内,许多数据中心项目遭遇电网接入延迟、电力容量不足等问题,甚至需要自建燃气电厂应对,特别是在美国。相比之下,我们的情况稍好一些,但电力不仅是成本问题,更是硬性约束:在固定的机房空间和电源容量下,能部署的GPU集群数量直接决定了训练和推理规模。

以一个50MW可用电源预算为例(大型AI数据中心常见),传统存储架构会大大限制整体算力密度。假设采用DGX H100机架(每机架约4台GPU服务器)搭配传统NAS存储:使用TLC性能层+ HDD对象层,每组NAS(16PB)功耗约为18kW,加上GPU机架本身的45kW功耗,整个DGX + NAS rack pair的总功耗较高。在这种配置下,50MW预算最多支持约675个DGX + NAS存储的机架组合。这意味着大量电力被存储系统占用,算力扩展空间被压缩。

而采用新一代all-QLC存储架构,如Solidigm QLC SSD最大容量达122.88TB,情况完全不同。存储功耗降至每48PB QLC仅约1.7kW,整体rack功耗控制在约45kW左右。同样50MW电源预算下,可支持的DGX + NAS存储机架组合数量提升至约1,000个,计算资源增加约50%。同时,机架数量减少至原来的1/9,存储能耗降低约90%。这意味着在电力受限的机房中,能部署更多GPU,获得更高的有效算力,无需额外扩容电源基础设施。

这种效率提升并非理论上的优化,而是实际的“电力解放”。当电力成为AI扩容的主要限制因素时,存储系统的功耗和密度不再仅仅是“后端问题”,而是直接影响整个数据中心TCO(总拥有成本)和部署速度的关键因素。选择低功耗、高密度的QLC方案,实际上是在用更少的电换取更多的训练和推理能力。

AI工作流阶段分析

为了防止资源浪费或性能瓶颈,LLM的生产流程分为六个主要阶段:数据摄取(Data Ingest)、数据准备(Data Prep)、训练(Training)、检查点(Checkpointing)、推理(Inference)和归档(Archive)。

这六个阶段的存储负载差异显著。检查点虽然属于训练的一部分,但由于其对大块顺序写入的需求与常规训练不同,需要单独考虑。

接下来,我们逐一分析每个阶段的存储需求:

1.数据摄取(Data Ingest):高容量+顺序写入性能

该阶段主要将海量原始数据(文本、图像、视频等)从外部源快速引入数据中心。负载以大块顺序写入为主,同时需要极高的存储容量来容纳未处理的原始数据集。

2.数据准备(Data Prep):顺序读写性能

数据准备包括清洗、标注、格式转换、shuffle等操作。存储负载特点是顺序读取原始数据+顺序写入预处理后的数据集,需要平衡的读写吞吐,避免成为训练前的瓶颈。

3.训练(Training):随机读取性能

训练阶段是整个流程中最耗资的部分,GPU集群必须保持高利用率。核心存储需求是高随机读取性能——模型需要频繁、随机地从海量数据集中拉取样本。如果存储跟不上,GPU会频繁空闲,严重影响训练效率。

4.检查点(Checkpointing):顺序写入性能

检查点是训练的一个子过程,但必须单独讨论。其负载模式与常规训练有显著差异:每隔一段时间(或固定步数),系统需要把当前模型参数、优化器状态等完整“快照”以大块顺序写入方式保存到存储中,用于容错恢复或继续训练。

一个百亿甚至万亿参数的LLM,单次检查点文件可能达到数TB甚至数十TB。如果写入速度不够快,检查点过程本身会占用大量GPU时间,降低整体训练吞吐。因此,该阶段对顺序写入性能要求极高,同时需要足够的容量来存放多个历史检查点。

5.推理(Inference):随机读取性能

推理阶段(包括服务化部署、在线/批量推理)主要负载是随机读取模型权重和输入数据。延迟和吞吐直接影响用户体验或业务效率。尽管推理对写入需求较低,但仍需高随机读性能和低延迟。

6.归档(Archive):高容量

训练完成后,原始数据、中间结果、历史模型和检查点等需长期保存。归档阶段的核心需求是高容量,对性能要求最低,但须兼顾极低功耗和TCO。

通过以上细分,可以看出:对象存储层(通常对应数据摄取和归档)适合用高容量、低功耗的QLC方案;而全闪存性能层(GPU服务器直连或高速访问的部分,对应训练、检查点、推理等)则需根据具体负载在TLC和QLC之间做精细平衡。

在实际部署中,许多领先的数据中心已采用“全QLC架构”或“混合TLC+QLC分层”策略,实现了存储功耗降低90%、机架数量减少至原来的1/9,同时让更多的电力流向GPU集群,最终使LLM的生产流程更快、更省、更规模化。

第三个维度是存储产品的特性。当前主流的企业级SSD主要分为TLC(三层单元,3-bit per cell)和QLC(四层单元,4-bit per cell)两类。两者底层架构差异直接决定了它们在成本、容量、性能、寿命四个关键指标上的表现,进而影响AI大模型生产流程中的选型决策。

TLC的优势与不足

TLC SSD长期以来是高性能存储的中坚力量。它具备较高的随机读写性能和相对稳定的写寿命(通常可达3~5 DWPD,即每日整盘写入次数),能够轻松应对训练阶段的密集随机读取和检查点的高频写入。然而,TLC的最大短板在于成本:相同容量下,TLC的单位GB价格通常是QLC的2~3倍。在AI大模型动辄PB级的数据规模下,全盘采用TLC会导致存储预算急剧膨胀,且TLC单盘最大容量(目前主流在30.72TB左右)低于QLC的顶配型号(如122.88TB),意味着同样总容量下需要更多盘位、更高机架空间和额外功耗。因此,纯TLC方案虽然性能强,但在大规模部署时经济性较差,尤其不适合数据摄取、归档等容量敏感型阶段。

QLC的优势与适用边界

QLC在每个存储单元中存储4 bit数据,密度更高,因此单盘容量轻松突破100TB,单位GB价格显著低于TLC。同时,QLC在顺序读写性能上并不逊色——现代企业级QLC SSD的顺序读取带宽可达6~7 GB/s,顺序写入也能维持在3~5 GB/s,完全能够满足数据摄取、检查点、归档等阶段的大块顺序读写需求。更重要的是,QLC的功耗密度极低:如Solidigm 122.88TB QLC盘,每PB功耗仅为传统HDD或TLC方案的几分之一,这对电力受限的数据中心而言是巨大优势。

但QLC也有其固有约束:写寿命较低(通常0.2~0.5 DWPD),且随机写入性能弱于TLC。如果直接用QLC承载训练阶段的高频小文件随机写入,可能会提前耗尽寿命或引发写放大。然而,在AI大模型的典型负载中——训练主要是随机读取,检查点是顺序大块写入,推理是随机读取——QLC的短板并不突出。只要避免将QLC用于高频率、小尺寸的随机写入场景(例如某些数据库日志),它就能在绝大多数AI流程中胜任。

产品特性维度的选型建议

综合TLC和QLC的特性差异,可以得出清晰的选型边界:

·训练阶段的高随机读取负载:如果预算充足且对延迟有极致要求,可选用TLC或高性能QLC(部分新一代QLC通过优化已大幅改善随机读性能);若追求性价比,采用QLC也基本够用,因为随机读对QLC寿命影响很小。

·检查点、数据摄取、数据准备:这些阶段以顺序读写为主,QLC完全胜任,且成本、功耗、密度都远优于TLC。

·归档阶段:容量为王,QLC是最优解,甚至可考虑未来更大容量的PLC(五层单元)。

·推理阶段:以随机读为主,对延迟有一定要求。推荐使用缓存层(少量TLC或DRAM)加速热点模型,冷数据层用QLC存储全部模型权重。

实际部署中,领先的AI数据中心已普遍采用“热数据用TLC或DRAM缓存+冷数据全QLC”的分层架构,甚至开始尝试“全QLC直通”方案:只要通过软件层面优化写聚合,就能用QLC替代大部分TLC位置,从而在保障训练和推理性能的同时,将存储TCO降低60%以上。因此,在产品特性维度上,不必盲目追求全TLC,而应正视QLC的性价比和密度优势,根据负载特征灵活搭配。

在人工智能大模型(LLM)的存储选型中,电力供应、端到端生产流程的六个阶段,以及存储产品自身特性,这三个维度共同构成了决策的核心框架。

面对当前数据中心电力日益紧张的现实,传统HDD方案已难以满足高效AI基础设施的需求。其较高的功耗、较低的访问速度和较大的物理空间占用,成为限制GPU集群规模扩展的主要瓶颈。因此,率先淘汰HDD、全面转向SSD架构,已成为提升整体算力密度和降低TCO的必然趋势。

更进一步,LLM的生产流程并非单一负载,而是涵盖数据摄取、数据准备、训练、检查点、推理和归档六个不同阶段,每个阶段对存储的容量、顺序读写、随机读取性能以及功耗的要求均有显著差异。只有根据各阶段的具体负载特点,选择匹配的产品特性,才能真正实现性能与效率的最优平衡。

推荐的做法是:在对象存储层(数据摄取与归档)优先选用高容量、低功耗的高密度QLC SSD;在性能敏感层(训练、检查点、推理)则根据随机读取或顺序写入需求,灵活搭配合适的TLC或QLC方案。通过这种分层、精细化的存储策略,既能大幅降低存储系统的电力消耗,又能释放更多电源容量用于GPU计算,最终在有限的电力和空间条件下,实现更大的AI训练与推理规模。

电力将成为未来AI竞争的决定性优势,而存储选型正是其中可控且高回报的一环。及早采用全SSD架构,并针对不同生产阶段匹配最优的产品特性,将帮助企业和数据中心在AI时代获得更强的竞争力和更高的资源利用效率。