AI硬件新增长点:ShuffleBox调度盒
文:董指导
图为康宁公司产品示意图
周末读了一份研报,国盛证券宋嘉吉团队的《ShuffleBox,从AI的"连接升级"走向"拓扑重构"》,标题清晰,阐述的方向也颇具价值。于是,我补充查阅了一些资料,来分享一下这个趋势。
1、什么是ShuffleBox调度盒
随着 AI 集群规模持续扩张,传统点对点布线方式的弊端被迅速放大。大量光纤线缆不仅占用宝贵的机柜空间,还会挤压气流通道,加剧散热负担,提升安装和维护的复杂度。
因此,决定一个算力系统能否高效扩展的,不仅是最强的芯片、交换机等硬件,更重要的是,把海量连接组织起来的底层工程能力。
调度能力就显得尤为关键。
ShuffleBox调度盒,业界常称为光纤分纤盒、光纤重排器件,本质上是一种无源光纤管理与重排解决方案。
它是无源的,不产生算力,也不负责信号放大。然而,能够在有限空间内,把大量光纤按预设路径精确重排、分配与路由,使原本容易缠绕、拥堵、难维护的高速互联,变得更加规整、紧凑、更具扩展性。
如果把当今的 AI 数据中心比作一座超大规模城市,那么 GPU 是工厂,交换机是高速公路枢纽,光模块是交通工具,而 Shuffle Box 更像是那套看不见却至关重要的道路分流系统。
没有它,系统虽能运转,但当规模扩展到十万卡、几十万卡甚至更高时,网络布线很快就会从"可管理"变成"不可维护"。
因此,报告中宋嘉吉团队总结了三大优势:
➢ 高效的光纤路由:Shuffle Box 在集中的、受控的封闭式机箱内组织和重新分配光纤连接,降低安装错误率,确保高密度架构下的精确映射。
➢ 紧凑的空间利用:模块化的 Shuffle Box 减少机架空间需求,为 AI 工作负载所必需的供电和冷却系统腾出空间。
➢ 加速部署:预组织的 Shuffle 组件缩短安装时间,简化大规模 GPU 集群的部署流程。
2、产品结构
Shuffle Box 的产品结构可理解为"壳体 + 高密度连接器 + 内部重排光路 + 保护与固定系统"。
第一层是外部结构件,即盒体、壳体、托盘、固定框架等机械结构。负责提供封装空间、保护内部光纤、控制弯曲半径、便于安装和维护。
第二层是连接接口层,即各类高密度光连接器。最常见的是 MPO 类接口,也可能延伸至 MMC 等更高密度连接方案。
第三层是内部光纤路径系统,这也是 Shuffle Box 最核心的部分。它的价值不在"有光纤",而在"如何排"。即把输入光纤按指定拓扑关系重新分配到不同输出端。
第四层是辅助材料与保护系统,如保偏光纤、护套、胶材、缓冲层、应力释放结构等。尤其在CPO场景里,若涉及外置激光源,保偏光纤的重要性会显著提升,因为偏振态稳定性会直接影响系统性能。
3、和CPO有什么关系?
CPO 会放大 Shuffle Box 的需求,但 Shuffle Box 的价值并不只来自 CPO。
在当前的 AI 网络架构中,特别是多平面、高密度、超大规模组网场景中,光纤重排本就是现实需求。CPO 只是把这个需求从"交换机外部"进一步推进到了"交换机内部"。
它并非突然涌现的新概念,而是在 AI 网络复杂度持续上升之后,被重新发现的关键组件。
NVIDIA 已明确推进 Quantum-X Photonics 和 Spectrum-X Photonics 的商业化进程。随着CPO交换机开始落地,盒内高密度光纤管理不再是远期话题,而是实际工程问题。
前景确实在变好,但节奏仍取决于几个变量:CPO 渗透速度、不同 AI 网络架构的演进路线。即:
CPO 的商业化虽已进入关键阶段,但距离全面替代传统可插拔方案仍有距离,供应链成熟度、制造良率、可靠性验证和维护体系建设,都会影响渗透节奏。
AI 网络架构并非单一路线演进,不同厂商在 scale-up、scale-out、CPO、OIO 等方案上的节奏并不完全同步,因此产业机会未必会线性释放。
4、格局、壁垒
Shuffle Box 本身往往不是高度标准化的通用件,而是和客户拓扑、交换机结构、前面板设计、光引擎布局深度绑定的定制化产品。
需要高密度布纤设计能力(设计能力本身就是壁垒),需要自动化、一致性和低损耗制造能力;需要材料与工艺上的长期积累;还需要与大客户在具体架构层面做深度协同。
导入周期更长、客户认证难,因此,也成为了壁垒。
目前海外相关产品提供者包括博通、康宁公司等。康宁® GlassWorks AI™解决方案,其国内供应商包括太辰光等公司。
---全文完,欢迎交流
理工/金融 复合背景