标签

AI与算力网络的相互促进:第二十八讲

发布时间:2026-03-30 12:14来源:微信阅读:8

AI精品通识课第二十八讲:

AI与算力网络的相互促进

大规模AI模型的发展正在重新定义科技行业的竞争格局,算力网络作为支撑这些大模型训练和推理的关键基础设施,其性能和规模直接影响了AI技术的进步。无论是国际上的GPT系列、Gemini等主流大模型,还是国内的DeepSeek等优秀模型,它们的万亿级参数训练和高效推理都离不开超大规模算力集群和高性能网络的支持。

传统算力组网模式在带宽、规模和效率上存在显著局限,难以满足大模型参数量急剧增长带来的通信需求。如今,算力网络已从简单的硬件互连升级为一个集“架构创新+流量优化+智能运维”于一体的综合体系。AI与算力网络的相互促进,正推动人工智能进入新的发展阶段。

3月30日19:30,《AI精品通识课》将准时开播。本次讲座将结合最新的产业实践和技术突破,围绕组网架构、流量模式、调度优化和可靠运维四个核心方面进行深入探讨。

播放时间

2026年03月30日 19:30

直播入口

通过国家智慧教育公共服务平台(www.smartedu.cn)首页轮播图“AI学习”,点击“AI精品通识课”第二十八讲【进入直播】即可观看。

图1 国家智慧教育公共服务平台首页轮播图入口

图2 点击“AI精品通识课”第二十八讲【进入直播】

讲座主题

AI+算力网络:AI与算力网络的相互促进

主讲人

赵世振

上海交通大学计算机学院长聘副教授、

博士生导师

讲座简介

本次讲座从AI大模型发展的核心驱动力Scaling Law出发,简要说明在大模型参数量急剧增长的背景下,大规模高性能算力网络对AI大模型训练和推理的核心支持作用,明确算力竞赛已成为AI发展的关键竞争力。在此基础上,从算力网络构建与AI训练推理协同的整体视角,梳理组网架构、流量模式分析、流量调度、网络运维四大核心模块,展示算力网络从架构设计到高效运行的完整体系,同时介绍AI对算力网络的反向支持,凸显二者相互促进的良性循环。

围绕这一背景,讲座的核心内容将从四个层面展开。

1.算力网络组网架构:解析算力网络的核心需求与Scale Up、Scale Out两大技术路径,结合阿里巴巴算力集群、英伟达NVL72/NVL576超节点、华为昇腾384超节点等实践案例,以及谷歌光交换技术突破,说明超大规模高带宽域超节点的构建逻辑与国产算力的发展路径。

2.AI训练推理流量模式:拆解数据并行、张量并行、流水线并行、专家并行四大核心并行模式的原理与通信特征,详解All-Reduce、All-to-All等关键集合通信机制。

3.算力网络流量调度:介绍ECMP流量调度策略的应用与哈希极化问题,梳理重哈希、路径编排、流量工程三类优化方案,展现AI在流量调度与集合通信优化中的核心价值。

4.算力网络可靠运维:聚焦超大规模集群的可靠性挑战,阐释AI智能运维对故障排查效率的提升,以及检查点技术的优化策略如何平衡训练可靠性与效率。

最后,总结算力网络与AI大模型的相互支持关系,揭示二者螺旋上升、协同发展的核心逻辑,为AI大模型算力支撑体系的构建与优化提供全面指导。

为获得更好的应用体验,建议手机端用户扫描左侧二维码下载“智慧中小学”APP。

BASIC-SMARTEDU