标签

捷报!人工智能学院本科生桂仲腾、汪静之成功中稿CCF-A顶级会议ICML 2026

发布时间:2026-05-15 20:15来源:微信阅读:4

论文入选概览

发表论文

Design Linear Constrained Neural Layers with Implicit Convex Optimization

论文作者名单

严骏驰 史良良 刘家熙 周方圆 潘文峥 桂仲腾 涂一辉

论文摘要内容

神经网络面临的核心挑战之一是如何对预测结果施加硬约束。为此,我们设计了一种即插即用的可微层,利用快速隐式凸优化过程来实现通用线性约束,旨在降低无约束输出与约束输出间的差异。研究发现,通过最小化KL散度施加约束时,该层可退化为Softmax、Sinkhorn、tanh等经典层,形成统一框架。若将KL散度替换为欧几里得距离,则可推导出闭式解,实现高效约束。我们对BLCLayer与GLCLayer及其对应的神经求解器BLCNet与GLCNet进行了评估,实验涉及线性规划及图匹配、投资组合分配等真实离散约束问题。

发表论文

JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation

论文作者名单

杨烨彬 吴怀瑾 郭富 林曜 秦啸涵 汪静之 张德炳 严骏驰

论文摘要内容

传统上,大语言模型通过密集维度扩展,性能与计算成本呈线性增长。尽管混合专家模型(MoE)解耦了容量与开销,但面临巨大的内存压力。为此,我们提出了基于令牌索引的参数扩展维度,将模型容量与FLOPs解耦。具体引入了JTok和JTok-M方法,通过从辅助嵌入表检索调制向量来增强Transformer层。这些轻量级逐元素运算带来的开销极低。大量实验(参数量6.5亿至610亿)显示,该方法持续降低验证损失,提升下游任务性能(MMLU+4.1, ARC+8.3, CEval+8.9)。等FLOPs分析证实,JTok-M改变了质量与计算量的帕累托前沿,在同等质量下可节省35%计算量。此外,基于令牌索引的参数表现出可预测的幂律扩展行为,且实现高效。

学生作者简介

桂仲腾,人工智能专业大二学生,导师为严骏驰老师。主要研究高性能计算(HPC)与AI基础设施,涵盖高性能算子开发、科学计算加速及应用迁移。曾获ASC25世界大学生超级计算机竞赛总冠军及e Prize计算挑战奖,获2024、2025年度致远荣誉奖学金,并组织举办上海交大首届Hello HPC挑战赛。研究成果发表于NeurIPS 2025与ICML 2026。现任上海交大Xflops超算队招新负责人及学生网络信息管理部(NIMO)中心组成员。

汪静之,人工智能专业二年级学生,导师为严骏驰老师。研究领域为LLM预训练与后训练,涵盖可微记忆、高效大模型等,致力于利用自监督学习方法构建高效语言模型,解决记忆不可靠及逻辑低效等问题。

会议背景介绍

ICML(International Conference on Machine Learning)是机器学习与人工智能领域的国际顶级学术会议,拥有悠久历史、巨大规模和广泛影响,同时也是中国计算机学会CCF推荐的A类会议。

ICML 2026将于今年7月在韩国首尔举行,这标志着学院首次有本科生一作论文入选CCF-A类会议。

根据谷歌学术影响力排名,ICML位列全球第17位,h5指数高达268。ICML与NeurIPS、ICLR并称人工智能领域难度最高、水平最强、影响力最大的“三大会议”。