标签

阿里云出席 2026 Open AI Infra Summit:借 UALink 2.0 与 CXL 革新 AI 超节点互联

发布时间:2026-04-13 17:35来源:微信阅读:4

4月9日至10日,2026 Open AI Infra Summit在北京盛大开幕。该大会由GCC-Open AI Infra社区承办,聚焦从兆瓦级算力到GW级数据中心的热点,涵盖高速互联、800V高压供电、先进液冷、超节点生态及性能测试等关键领域。阿里云服务器研发团队在高速互联及超节点生态论坛分别进行技术分享,全方位展现了阿里云在AI基础设施互联领域的技术实力与生态布局。

UALink 2.0 协议迭代:打破 Scale Up 发展瓶颈

在高速互联论坛上,阿里云服务器研发架构师邱宇弟发表了题为“突破 Scale Up 发展瓶颈:UALink 2.0 协议演进与分析”的演讲,梳理了UALink技术脉络,解读了ALink2.0新规范,并介绍了当前UALink中国生态的发展现状。

UALink联盟作为拥有120多家成员的开放技术组织,致力于为AI加速器打造专用Scale Up互连网络,采用内存为中心的低延迟架构,与PCIe、CXL及以太网协同。2025年4月发布200G V1.0,同年9月跟进128G DL/PL,2026年4月上旬将发布四项新规范,技术体系日益完善。

在最新的UALink 2.0通用规范中,引入了在网计算能力,将集合通信卸载至网络内部,降低分布式训练延迟,提升效率;200G DL/PL规范2.0将链路与物理层拆分,增加链路弹性与折叠特性;可管理性规范1.0引入集中式管控架构,采用gNMI等标准;芯粒规范1.0完全兼容UCIe 3.0,简化集成。

演讲最后,邱宇弟指出,面对大模型训练推理的新挑战,产业界对Scale Up互连要求更高,UALink演进正是对伙伴需求的响应。作为开放标准,UALink为中国AI基础设施参与全球生态提供机会。阿里云将持续参与规范制定与生态共建,联合伙伴推动UALink在国内AI集群落地,构建开放互连的算力底座。

CXL与UALink:确立AI存储Scale Up互连新边界

在超节点生态论坛,阿里云资深技术专家常存银发表了“CXL与UALink在AI存储Scale Up互连中的价值与机遇”演讲,阐述了AI场景下存储需求的变化及挑战。

当前AI业务需兼顾单机柜内超低延迟与跨机柜分布式存取,CXL通过内存解耦和池化,重构数据中心交互方式,在性能、成本和效率上实现突破。

阿里云展示了基于CXL的多项自研成果:自研持久化内存AliSCM具备大容量、低成本、支持持久化和池化等优势;自研CXL存储AliFlash实现GPU直接访问基于CXL的KVCache,提升推理效率;磐久CXL内存池化服务器实现内存资源弹性调度。

常存银表示,针对AI对存储和内存带宽延迟的极致要求,CXL/UALink等计算总线结合自研存储部件在Scale Up场景能有效提升带宽降低延迟,满足实时存算。基于CXL/UALink的“存算一体”互连架构,通过总线级重构消除存算鸿沟,定义了未来AI基础设施的存储性能边界。

总结与展望

近年来,阿里云在CXL和UALink两大高速互连生态建设中发挥关键作用。作为CXL联盟创始成员及董事会成员,阿里云首发CXL内存池化超节点服务器,推动CXL在云数据库落地。今年1月PolarDB开发者大会上展出了GPU-CXL内存池直连的大模型推理架构,探索可弹性扩展的统一内存池。

阿里云作为UALink联盟唯一中国董事会成员,推动UALink和自建ALink System生态建设,国内成员超30家。近期ODCC和联盟联合发布UALink规范测试验证服务,支持成员单位对研发产品进行投片前验证。楠菲微电子、瀚博半导体等企业已完成IP层互通测试,阿里云磐久服务器超节点也将通过ODCC AI Infra方升项目完成适配。

此前,阿里云服务器研发产品与架构负责人王伟也指出,面向AI大模型推理,需打破以CPU为中心的架构,转向以GPU为核心。通过CXL解决内存池化、UALink突破GPU互连瓶颈,阿里云正以软硬协同方式,支持未来AI基础设施从“CPU中心”转向“GPU中心”,打造AI原生云基础设施。