Run:ai v2.25 部署前必查清单|硬件系统网络存储证书核对指南

发布时间：2026-06-29 22:56阅读：2

本文基于 NVIDIA Run:ai v2.25 官方文档整理翻译，产品架构、部署分类、软硬件兼容规范均来源于英伟达官方公开手册，仅供企业 AI 算力技术交流使用，生产环境部署建议参考官方原版文档进行验证。

上篇《NVIDIA Runai v2.25 私有化部署｜拆解平台底层架构与部署方案》已阐明平台两大核心组件与部署方案。但很多团队直接进行安装时，往往会在资源不足、版本不匹配、网络域名缺失等基础环节卡住，造成返工浪费。

本文为简明部署前自查清单，不涉及具体操作步骤，仅梳理控制平面、业务集群两套软硬件基础规范，汇总部署架构选型、系统与算子版本兼容性、网络放行规则、存储域名证书、离线/联网部署所需物料，可供运维、研发负责人进行前期方案调研，同时用于部署前快速逐项核对，提前规避常见安装故障。

一、两大组件硬件规范 Run:ai 控制平面、业务集群资源要求完全独立，同集群部署需两套资源叠加计算；生产环境建议拆分系统节点与 GPU 工作节点，避免昂贵显卡资源被调度服务占用。

配套安装机要求（具备集群管理员权限、执行 helm 安装的 K8s Master 节点）：磁盘可用空间≥50GB；

预装 Docker；

Helm 3.14 及以上版本；

离线环境安装包自带 helm 二进制，无需单独部署。

2. Run:ai 算力集群

分为集群系统节点（调度服务）、GPU 工作节点（承载 AI 任务）两类。业务集群系统节点承载集群调度、监控采集、各类算子控制器等平台后台服务，禁止调度用户AI业务任务；GPU工作节点仅运行模型训练、在线推理、开发工作空间等用户负载，不部署任何平台管控组件。

（1）算力集群系统节点

（2）GPU 工作节点（训练 / 推理负载）

GPU 硬件兼容

支持：A100/H100/B200/GB200 等数据中心 GPU，仅GPU 直通模式可用不支持：Jetson 开发板、DGX Spark、桌面工作站、vGPU 虚拟化

二、两种部署架构选型 & 前置差异

方案 1：同集群部署（中小单机房推荐）

控制平面 + 首个业务集群部署同一套 K8s

优势：部署流程简单，无需两套独立 Ingress、LB、FQDN 域名，硬件投入更低。

前置简化规则：同一集群场景，无需单独配置集群 Ingress、独立 FQDN 域名、独立 Prometheus，复用控制平面基础设施。

方案 2：分离集群部署（大型多机房 / 涉密企业）

独立 K8s 承载控制平面，各地机房单独搭建业务 GPU 集群，统一纳管。

硬性前置要求：两套集群完全隔离，均需独立：Ingress 控制器、负载均衡、独立 FQDN 域名、全套 TLS 证书、独立 Prometheus 监控。

三、系统 & 算子版本兼容预检（v2.25 官方支持矩阵）

Run:ai 版本

兼容 Kubernetes

兼容 OpenShift

v2.25 1.33

1.35 4.18

4.21

注意：runai.jfrog.io和nvcr.io仅IPv4解析，纯IPv6内网必须配置NAT64/DNS64或内网镜像仓库中转离线包。

集群内网

所有 K8s 节点全端口互通，无内网防火墙阻断通信。

2. 集群间通信规则（分离集群）

业务集群 443 出站可达控制平面 FQDN，用于集群注册、监控指标上报。

五、存储、域名、证书