Run:ai v2.25 部署前必查清单|硬件系统网络存储证书核对指南
本文基于 NVIDIA Run:ai v2.25 官方文档整理翻译,产品架构、部署分类、软硬件兼容规范均来源于英伟达官方公开手册,仅供企业 AI 算力技术交流使用,生产环境部署建议参考官方原版文档进行验证。
上篇《NVIDIA Runai v2.25 私有化部署|拆解平台底层架构与部署方案》已阐明平台两大核心组件与部署方案。但很多团队直接进行安装时,往往会在资源不足、版本不匹配、网络域名缺失等基础环节卡住,造成返工浪费。
本文为简明部署前自查清单,不涉及具体操作步骤,仅梳理控制平面、业务集群两套软硬件基础规范,汇总部署架构选型、系统与算子版本兼容性、网络放行规则、存储域名证书、离线/联网部署所需物料,可供运维、研发负责人进行前期方案调研,同时用于部署前快速逐项核对,提前规避常见安装故障。
一、两大组件硬件规范 Run:ai 控制平面、业务集群资源要求完全独立,同集群部署需两套资源叠加计算;生产环境建议拆分系统节点与 GPU 工作节点,避免昂贵显卡资源被调度服务占用。
配套安装机要求(具备集群管理员权限、执行 helm 安装的 K8s Master 节点): 磁盘可用空间≥50GB;
预装 Docker;
Helm 3.14 及以上版本;
离线环境安装包自带 helm 二进制,无需单独部署。
2. Run:ai 算力集群
分为集群系统节点(调度服务)、GPU 工作节点(承载 AI 任务)两类。业务集群系统节点承载集群调度、监控采集、各类算子控制器等平台后台服务,禁止调度用户AI业务任务;GPU工作节点仅运行模型训练、在线推理、开发工作空间等用户负载,不部署任何平台管控组件。
(1)算力集群系统节点
(2)GPU 工作节点(训练 / 推理负载)
GPU 硬件兼容
支持:A100/H100/B200/GB200 等数据中心 GPU,仅GPU 直通模式可用 不支持:Jetson 开发板、DGX Spark、桌面工作站、vGPU 虚拟化
二、两种部署架构选型 & 前置差异
方案 1:同集群部署(中小单机房推荐)
控制平面 + 首个业务集群部署同一套 K8s
优势:部署流程简单,无需两套独立 Ingress、LB、FQDN 域名,硬件投入更低。
前置简化规则:同一集群场景,无需单独配置集群 Ingress、独立 FQDN 域名、独立 Prometheus,复用控制平面基础设施。
方案 2:分离集群部署(大型多机房 / 涉密企业)
独立 K8s 承载控制平面,各地机房单独搭建业务 GPU 集群,统一纳管。
硬性前置要求:两套集群完全隔离,均需独立:Ingress 控制器、负载均衡、独立 FQDN 域名、全套 TLS 证书、独立 Prometheus 监控。
三、系统 & 算子版本兼容预检(v2.25 官方支持矩阵)
Run:ai 版本
兼容 Kubernetes
兼容 OpenShift
v2.25 1.33
1.35 4.18
4.21
注意:runai.jfrog.io和nvcr.io仅IPv4解析,纯IPv6内网必须配置NAT64/DNS64或内网镜像仓库中转离线包。
集群内网
所有 K8s 节点全端口互通,无内网防火墙阻断通信。
2. 集群间通信规则(分离集群)
业务集群 443 出站可达控制平面 FQDN,用于集群注册、监控指标上报。
五、存储、域名、证书