喜讯!课题组论文首获ICML 2026人工智能顶会录用
日前,由课题组博士生杜美余在王伟教授与高宇擎副教授联合指导下完成的成果“Stabilizing PPO via Latent-Space Regularization and KDE-Driven Exploration”,成功入选人工智能领域的权威峰会——2026年国际机器学习会议(ICML 2026)。作为机器学习界历史积淀深厚、参会规模宏大且影响力深远的顶尖学术盛会,ICML不仅位列中国计算机学会CCF推荐的A类会议,更与NeurIPS、ICLR共同构成了人工智能领域公认难度最高、水准最强、影响力最大的“三大顶会”。
这一成就标志着课题组在AI交叉学科领域实现了新的跨越,研究范畴从“AI助力土木工程及钢结构设计”延伸至人工智能底层算法探索,并赢得了顶级学术会议的高度肯定。该研究聚焦于深度强化学习经典算法Proximal Policy Optimization (PPO) 训练过程中的不稳定性难题,提出了一种针对actor-critic神经网络潜在空间的稳态方案SPPO,为增强连续控制任务中策略学习的稳定性及提高样本效率开辟了新路径。
杜美余主要致力于基于深度强化学习的钢结构智能化优化设计研究。在探索中她发现,虽然PPO算法应用广泛,但在训练阶段往往表现出显著的动态敏感性。这种不稳定性不仅源于强化学习目标函数本身,更与神经网络训练期间内部表征空间的动态演变紧密相关。
为了深入剖析该问题,研究团队首先利用CKA指标对PPO训练期间actor与critic中间层表征的演变进行了量化分析。分析表明,网络表征在训练初期会经历快速重构;随着训练深入,actor的大部分层级会较早趋于稳定,然而critic中邻近value head的隐藏层及value输出层在中后期仍表现出显著波动;此外,actor的pre-squash动作空间也呈现出收敛缓慢及方向震荡的特征。
图1 PPO训练期间actor与critic表征的CKA演变情况
1 SPPO算法
基于上述发现,论文提出了SPPO算法,在actor与critic的潜空间中引入了三项互补机制。对于critic,采用基于CKA的隐空间正则化技术,通过限制历史短时序状态在critic潜在空间内的相对结构,来抑制价值网络表征的剧烈漂移。对于actor,构建No-Flip惩罚项,旨在pre-squash动作空间内遏制策略更新方向的剧烈反转,进而减弱策略输出在相邻更新步骤间的方向震荡。在探索策略上,应用KDE-driven novelty shaping技术,在critic潜在空间中评估状态的新颖度,并将其作为优势函数的辅助信号,指引策略向低密度区域探索,从而克服单纯依赖随机性探索的局限性。
图2 SPPO算法框架示意图
2 实验验证
研究团队在MuJoCo-v5、DeepMind Control Suite及Atari等多种环境中对SPPO进行了全面测试,并将其与PPO及其他多种PPO稳定化改进方案进行了对比。实验数据表明,在大多数MuJoCo连续控制任务及不同的网络容量配置下,SPPO相较于PPO展现出了更优的训练曲线和最终性能,且在RLiable聚合指标上呈现出稳定的性能提升。
图3 不同网络容量下PPO与SPPO在MuJoCo-v5环境中的训练曲线对比
为了进一步阐释性能提升的原因