上海交大通用人工智能所6篇论文荣登ICML 2026

发布时间：2026-05-04 09:49阅读：18

近期，备受瞩目的第43届机器学习国际会议ICML 2026公布了其论文录用名单，上海交通大学计算机学院通用人工智能研究所在此次盛会上表现卓越，共有6篇高质量论文成功获选。

作为全球机器学习领域公认的顶级学术盛会，ICML（International Conference on Machine Learning）与 NeurIPS、ICLR 并称为机器学习领域的“三大顶会”，并获得中国计算机学会（CCF）A类会议推荐。2026年的会议定于7月6日至11日在韩国首尔隆重举行。

论文作者

季严彪，李秋昌，胡宇庭，吴劭恺，谢文远，张国栋，何其宸，纪德义，丁玥，卢宏涛

论文简介

本文提出了一种名为ENERGYFLOW的新方法，旨在突破现有扩散策略“仅模仿轨迹而无法解释意图”的固有局限。通过参数化标量能量函数，并将其动作梯度作为去噪向量场，该方法能够同时实现动作生成和隐式奖励的学习。理论研究表明，通过去噪得分匹配学到的得分函数能够自然地编码专家行为的软优势函数梯度，从而可以直接通过积分提取奖励信号，有效规避了传统逆强化学习中不稳定的对抗性优化问题。在结构设计上，ENERGYFLOW强制学习到的场具有保守性，从理论上证明了这一约束能够将假设空间的Rademacher复杂度降低到与动作空间维度无关的光滑性常数，从而收紧分布外泛化能力的上限，并防止出现非传递性循环偏好。同时，文章还提供了得分估计误差向动作偏好传递的Lipschitz连续性界限，确保了在近似学习下的鲁棒性退化。该方法已在RoboMimic、Meta-World仿真基准以及AGIBot G1实体机器人场景中进行了验证。实验结果显示，ENERGYFLOW在模仿学习任务上的平均成功率达到了最优水平；其提取的能量奖励结合稀疏任务奖励的表现显著优于对抗式IRL和似然式替代方案；在分布外泛化测试中，ENERGYFLOW在面对扰动增加时性能衰减最为平缓，证实了保守场约束的有效性。

Calibrating Uncertainty for Zero-Shot Adversarial CLIP

论文作者

陆文婧，陶泽锐，邱育宁，张东平，杨旸，赵启斌

论文简介

本研究揭示了CLIP模型在面对对抗性攻击时，由于不确定性被抑制而出现的过度自信和校准失准现象，并将研究重点从鲁棒性扩展到可靠性。通过对Dirichlet分布进行重参数化，我们构建了一个能够同时捕捉语义结构和证据强度的统一表示，并提出了在扰动下进行整体分布对齐的目标UCAT。实验结果表明，该方法在保持零样本泛化能力的同时，有效地恢复了校准的不确定性，并显著提升了模型的对抗鲁棒性。

论文作者

栾昊洋，余谷风，陈乐天，肖真然，黄悦珊，郭珺琨，杨旸

论文简介

在计算免疫治疗领域，为特定癌细胞表面主要组织相容性复合体（MHC）从头设计高亲和力的短肽，是实现精准疫苗和免疫疗法的关键挑战。现有方法往往难以有效整合MHC环境信息，并且忽视了负样本信号，导致生成的短肽在结合亲和力上存在不足。为了克服这些限制，我们提出了一种名为EpiCoCo的协同设计框架，该框架能够结合MHC环境信息来设计抗原短肽序列。其创新之处包括：

1.MHC环境的协同建模（MHC-Context Co-Modeling）

将短肽-MHC复合体视为一个动态协同演化的系统，并在联合的E(3)图上进行协同学习，对短肽和MHC的结构序列进行双向交互建模，以确保生成的短肽能够在三维结构层面实现稳定结合。

2.对比亲和力引导（Contrastive Affinity Guidance, CAG）

通过学习高亲和力和低亲和力分布的梯度差异，设计了一种吸引力梯度来驱动生成过程趋向高亲和力流形，同时利用排斥性梯度使之远离低亲和力区域，从而显著提高了生成短肽的质量。

3.少样本负例生成（Few-Negative-Shot Generation）

EpiCoCo在处理数据集中正样本稀疏甚至不存在的MHC时，能够通过学习负样本信息，依然生成高亲和力的短肽，展现了强大的泛化能力。

实验验证结果显示，在跨越多种物种和等位基因的基准数据集上，EpiCoCo实现了平均结合自由能ΔG = –45.20REU，较当前最优方法提升约23%，并在结构合理性方面表现最佳。进一步的实验表明，MHC环境的协同建模与负样本引导的结合是实现高亲和力抗原肽设计的关键。

论文作者

羊宇培，杨林，邓万禧，曲琳，冯帆，黄碧薇，涂仕奎，徐雷

论文简介

本文聚焦于大型语言模型在RLHF（人类反馈强化学习）过程中，奖励模型易受长度偏差、迎合性表达等虚假相关因素影响而产生奖励欺骗的问题，提出了因果分解式奖励建模框架CausalRM。该方法能够显式地解耦因果关系和非因果表征因素，并约束奖励预测仅依赖于因果表征，从而有效提升RLHF训练的稳定性和鲁棒性。实验结果表明，CausalRM在数学推理和开放式对话任务中均取得了稳定的性能提升：奖励模型的准确率最高提升了2.6个百分点，下游RLHF数学推理性能最高提升了1.5个百分点，并且显著降低了模型对响应长度和迎合性表达的敏感度。

论文作者

张子殷，廖子涵，余航，邸鹏，王瑞

论文简介

高质量文本嵌入的发展正日益面临一个排他性的未来，其主要障碍包括：高昂的计算成本、忽视全球绝大多数语言的狭隘语言焦点，以及闭源或开放权重模型缺乏透明度阻碍研究进展。为了打破这些限制，我们引入了ML-Embed，这是一套基于全新框架——三维套娃学习（3-Dimensional Matryoshka Learning, 3D-ML）——构建的包容且高效的模型套件。该框架通过在模型整个生命周期中实现全面的效率提升来应对计算挑战。除了套娃表示学习（Matryoshka Representation Learning, MRL）带来的存储优势外，我们还引入了套娃层学习（Matryoshka Layer Learning, MLL），以支持在推理阶段灵活调整模型深度；并采用了套娃嵌入学习（Matryoshka Embedding Learning, MEL），进一步提高了参数效率。

为了解决语言多样性的挑战，我们构建了一个大规模多语言数据集，并训练了一系列参数量从1.4亿到80亿不等的模型。为了切实履行对透明度的承诺，我们公开了所有模型、数据和代码。在430项任务上的广泛评估表明，我们的模型在17个MTEB基准测试中的9个上刷新了最佳纪录，尤其在低资源语言场景中表现突出。这项工作为构建全球公平且计算高效的AI系统提供了一套可复现的蓝图。

论文作者

朱文红，谢若冰，王瑞，刘鹏飞

论文简介

知识蒸馏（Knowledge Distillation, KD）是压缩大型语言模型（LLMs）的有效方法，其性能很大程度上取决于散度方向、优化策略和数据机制等相互关联的选择。我们深入分析了现有知识蒸馏方法的设计，并提出了一个统一的视角，将这些方法联系起来，将知识蒸馏重新表述为在令牌（token）层面进行重加权对数似然目标。在此基础上，我们进一步提出了混合策略蒸馏（Hybrid Policy Distillation, HPD）。该方法结合了前向KL散度和反向KL散度的互补优势，以平衡模式覆盖（mode coverage）和模式搜索（mode-seeking）的行为；同时，它将离策（off-policy）数据与轻量级的近似在策（on-policy）采样相结合。我们在长文本生成的数学推理任务，以及短文本生成的对话和代码任务上对HPD进行了验证。结果表明，在不同模型家族和规模下，HPD均展现出更优的优化稳定性、计算效率以及最终性能。

← 上一篇：杭州AI替岗案真相：法院从未禁止AI裁员，只规范滥用行为下一篇：AI助手为何变身推销员？科技巨头商业模式探索 →