捷报！人工智能学院本科生桂仲腾、汪静之成功中稿CCF-A顶级会议ICML 2026

发布时间：2026-05-15 20:15阅读：20

论文入选概览

发表论文

Design Linear Constrained Neural Layers with Implicit Convex Optimization

论文作者名单

严骏驰史良良刘家熙周方圆潘文峥桂仲腾涂一辉

论文摘要内容

神经网络面临的核心挑战之一是如何对预测结果施加硬约束。为此，我们设计了一种即插即用的可微层，利用快速隐式凸优化过程来实现通用线性约束，旨在降低无约束输出与约束输出间的差异。研究发现，通过最小化KL散度施加约束时，该层可退化为Softmax、Sinkhorn、tanh等经典层，形成统一框架。若将KL散度替换为欧几里得距离，则可推导出闭式解，实现高效约束。我们对BLCLayer与GLCLayer及其对应的神经求解器BLCNet与GLCNet进行了评估，实验涉及线性规划及图匹配、投资组合分配等真实离散约束问题。

发表论文

JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation

论文作者名单

杨烨彬吴怀瑾郭富林曜秦啸涵汪静之张德炳严骏驰

论文摘要内容

传统上，大语言模型通过密集维度扩展，性能与计算成本呈线性增长。尽管混合专家模型（MoE）解耦了容量与开销，但面临巨大的内存压力。为此，我们提出了基于令牌索引的参数扩展维度，将模型容量与FLOPs解耦。具体引入了JTok和JTok-M方法，通过从辅助嵌入表检索调制向量来增强Transformer层。这些轻量级逐元素运算带来的开销极低。大量实验（参数量6.5亿至610亿）显示，该方法持续降低验证损失，提升下游任务性能（MMLU+4.1, ARC+8.3, CEval+8.9）。等FLOPs分析证实，JTok-M改变了质量与计算量的帕累托前沿，在同等质量下可节省35%计算量。此外，基于令牌索引的参数表现出可预测的幂律扩展行为，且实现高效。

学生作者简介

桂仲腾，人工智能专业大二学生，导师为严骏驰老师。主要研究高性能计算（HPC）与AI基础设施，涵盖高性能算子开发、科学计算加速及应用迁移。曾获ASC25世界大学生超级计算机竞赛总冠军及e Prize计算挑战奖，获2024、2025年度致远荣誉奖学金，并组织举办上海交大首届Hello HPC挑战赛。研究成果发表于NeurIPS 2025与ICML 2026。现任上海交大Xflops超算队招新负责人及学生网络信息管理部（NIMO）中心组成员。

汪静之，人工智能专业二年级学生，导师为严骏驰老师。研究领域为LLM预训练与后训练，涵盖可微记忆、高效大模型等，致力于利用自监督学习方法构建高效语言模型，解决记忆不可靠及逻辑低效等问题。

会议背景介绍

ICML（International Conference on Machine Learning）是机器学习与人工智能领域的国际顶级学术会议，拥有悠久历史、巨大规模和广泛影响，同时也是中国计算机学会CCF推荐的A类会议。

ICML 2026将于今年7月在韩国首尔举行，这标志着学院首次有本科生一作论文入选CCF-A类会议。

根据谷歌学术影响力排名，ICML位列全球第17位，h5指数高达268。ICML与NeurIPS、ICLR并称人工智能领域难度最高、水平最强、影响力最大的“三大会议”。

← 上一篇：AI重塑美国高校：'AI+X'专业新趋势下一篇：AI时代的组织变革：分布式管理新模式 →