AI如何攻克“无标准答案”难题
SERIES让 AI 做算术或翻译,核心是通过计算输出与标准答案间的 loss 并反向传播。可一旦任务是“回答得更好”或“下赢棋”,根本不存在标准答案可供计算 loss——这条路也就断了。强化学习接过了这个难题,甚至能下出人类万分之一概率才会下的棋。这究竟是如何做到的?本文核心要点01 监督学习的核心要求:必须先有答案,才能计算出 loss大模型的预训练与微调,本质上都是监督学习:将模型预测的 token 与“标准答案 token”对比,计算交叉熵(差距大小),再通过反向传播调整参数以缩小差距,循环数百万
AI大讲堂第三期:揭秘机器学习的“基因”与运作机制
编者按:如今,人工智能已然化作助推企业迈向高质量发展的强劲动力。为了广泛传播AI理念、更新前沿资讯、梳理应用案例,帮助全体员工提升数智能力,促进“AI+”战略在全省范围内的深入实施。数据发展及AI中心特别策划了“AI大讲堂”系列微课,旨在共同探索智能时代的全新发展路径。 本期主题:《AI的“基因”,机器学习究竟是如何运作的?》 机器学习概念看似高深莫测,其实质就是赋予机器自主“掌握”技能的能力。它是如何完成学习的呢?监督学习、无监督学习以及强化学习,这三种路径究竟有何差异?本期将避开晦涩难懂的专业词汇,带
AI是否真正理解世界?通往通用智能的新路径
引言:服务器中的AI,是否真正理解现实?近三年来,大模型的发展使全球人工智能行业迎来史无前例的高潮。从ChatGPT到多模态系统,再到拥有推理功能的智能代理,许多专家预测通用人工智能(AGI)可能在几年内诞生。然而,在所有关于AGI的探讨中,有一个最核心的问题始终未被真正解答:当前运行于数据中心的AI,是否真的理解我们所处的世界?它们表现出来的语言、推理与创新能力,究竟属于真正的认知行为,还是只是对大量数据模式的统计拟合?这个问题最近再度成为学术界关注的焦点。2026年5月,强化学习领域的开创者、图灵奖得
腾讯开悟AI教学研讨班在北航杭州院成功举办
2026 年 5月30-31日,由腾讯开悟与北京航空航天大学国际创新研究院联合主办的“2026 腾讯开悟人工智能教学实践研讨班”在杭州顺利举行。本次活动以《智能体建模实践——游戏AI与具身智能》为主题,吸引了来自30余所高校的60多位专家学者和一线教师参与。人工智能教学实践研讨班(杭州站)集体合影国新院副院长杜鹏程、腾讯开悟教育产品副总经理汪文俊,以及北航人工智能学院教授吴文峻等嘉宾出席开班仪式。仪式由北航人工智能学院副教授石荣晔主持。杜鹏程副院长代表主办方对参训教师表示欢迎,并感谢腾讯开悟平台及相关单位
2026 暑期科研计划|AI、强化学习与推荐系统专题汇总
近年来,计算机科学与人工智能技术正以惊人的速度,全方位重塑我们的日常生活。如今,智能安防系统借助人脸识别技术,守护着社区安全;智能交通系统运用强化学习算法优化信号灯控制,缓解交通拥堵;还有个性化的教育辅导机器人,依据机器学习分析学生的学习情况,提供专属学习方案。在这场技术革新的浪潮中,对于 26fall、27fall 有留学计划,或是正在留学想继续海外升学,目标专业是计算机科学、人工智能等相关领域的同学而言,拥有前沿领域的科研经历与学术产出,对留学申请都是十分有帮助的~相关项目推荐适合人群:人工智能、计算
重磅!百份'AI+ 军事'智能防务文献合集
精选!【DARPA 终身学习机器(L2M)】《自主系统中用于感知和行动的终身学习》美空军、宾大 2022 最新 234 页技术报告《多智能体交互的深度强化学习》爱丁堡大学 10 余为作者 2022 最新论文《以无人机为核心的海军力量投射新纪元》最新报告欧洲、威慑与远程打击能力精选!全方位解析美陆军 AI 布局 |《人工智能的战场应用》130 页报告人机协同:《基于强化学习的有人 - 无人飞机编队任务规划:敌方防空压制(SEAD)任务》最新论文《综述:多智能体系统(MAS)中的任务分配技术》美国空军项目支持
AI每日学堂:深度解析Q-Learning与DQN算法:它们如何与Transformer联手改变AI
今天,我们用最通俗易懂的方式,为大家彻底讲明白这两个经典算法的数学原理、典型应用,以及它们在当代大模型架构中究竟扮演怎样的关键角色。数学原理Q-Learning的核心在于函数Q(s, a),它代表在状态s下执行动作a后,未来能够获得的累积奖励期望值。它的迭代更新公式源自经典的贝尔曼方程:Q(s, a) ← Q(s, a) + α [r + γ × max Q(s', a') - Q(s, a)]让我们逐一拆解这个公式:s:当前所处状态a:当前执行的动作r:执行动作后立即获得的即时奖励s
AI逐梦者的学术征途:张世琳的科研成长之路
青春心向党,奋进新征程。为深入学习贯彻党的二十届四中全会精神,扎实推进"强国行"专项行动,我院特设"经纬·强国青年说"专题栏目,展现工管学子在服务国家战略、扎根基层实践、攀登科研高峰、推动教育发展等方面的典型事迹。他们以信念为魂、以专业为翼、以实干为本,将"为党育人、为国育才"的使命融入成长历程;在知行合一中践行"学道酬实,至任于群"的院训精神,以勤勉踏实深耕学术,以求真务实开拓创新,力争成为具有国际视野、理论功底、知识储备、实践能力和创新精神的新时代复合型人才。从实验室到基层一线,从课堂到社会大舞台,工
Momenta曹旭东:物理AI基石由世界模型与强化学习铸就
4月25日,Momenta在北京车展举办“Momenta R7,物理AI序章”分享会。四位合伙人同台,探讨技术、产品及商业化,宣布R7强化学习世界模型量产首发。这标志着智能驾驶从“感知”到“理解”的飞跃,物理AI从概念走向量产。 Momenta交付超70款车型,定点超200款,覆盖10余国。搭载系统车辆超80万台,最快40天交付10万。北京车展有20个品牌60余车型搭载,含奔驰、奥迪、宝马。 世界模型与强化学习,构成物理AI两大核心支柱 分享会上,Momenta合伙人、CEO曹旭东解析了物理AI的底层逻辑
AI 智能体新突破:主动协作评估与表格强化学习微调
2026-05-14|SJTU, Shanghai AI Lab, FDU, USTC, PKU, NJU, ZJU, Tongji University, Soochow U, CUHK|🔺91http://arxiv.org/abs/2605.14678v3 https://huggingface.co/papers/2605.14678 https://github.com/Simplified-Reasoning/Pi-Bench随着人工智能由单纯的“对话窗口”向“数字员工”转型,我们正目睹从基础
人工智能与智能体开发必备概念指南
一、机器学习基础 · 监督学习:利用已标注的数据集进行训练,建立输入到输出的对应关系。 · 无监督学习:基于未标记的数据,自动挖掘潜在的内部结构或规律。 · 强化学习:智能体通过与环境的交互试错,依据奖励和惩罚机制学习最优决策方案。 · 特征与标签:特征指输入的属性信息,标签则是需要预测的目标值。 二、核心算法与模型 · 神经网络:模仿人脑神经元结构的计算模型。 · 深度学习:运用多层神经网络结构的机器学习分支。 · Transformer:基于自注意力机制的模型架构,是现代大规模语言模型的基础。 · 大
苏中校友旧金山 AI 峰会:圆桌论道共话未来
2026 年 5 月 2 日,苏州中学美西校友会在美国旧金山湾区成功举行了一场别开生面的聚会。与以往侧重叙旧寒暄、合影留念的传统活动不同,本次聚会紧扣 AI 主题,特别邀请多位在人工智能领域深耕的校友进行专业分享,并组建了四人校友圆桌论坛,共吸引了六十多位校友亲临现场参与交流。活动在轻松和谐的氛围中拉开帷幕。主持人、校友陈之立在开场致辞中提及,各位校友在各行业深耕细作、成绩斐然,同时怀揣母校情怀,乐意回归校友会平台,分享行业前沿洞察与深度思考。本次盛会共规划三大环节:四场专题分享、一场校友圆桌论坛,以及晚
arXiv 人工智能前沿论文精选 2026年5月下旬
1. 精简草稿强化检索:推测解码的混合树构造策略 原文标题: Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20104v1 推测解码(SD)采用先预测后校验的模式来加速大语言模型推理过程。当前方法通过构建大型草稿树来追求更高的接受率,但这会导致显存带宽与计算资源的严重瓶颈。动态深度剪枝虽能通过移除边缘分支
Momenta曹旭东解读:世界模型与强化学习如何成为物理AI的双引擎
4月25日,Momenta在北京国际车展期间举办了一场以"Momenta R7,物理AI序章"为主题的专题分享会。四位联合创始人共同登台,围绕公司的技术理念、产品实力以及全球化商业拓展等核心议题展开了深入探讨,正式宣布Momenta R7强化学习世界模型实现规模化量产,标志着自动驾驶从"观察世界"向"认知世界"的战略性升级,物理AI正式从理论概念迈向大规模商业落地。 Momenta披露的数据显示,公司已成功交付超过70款量产车型,获得定点的车型总数突破200款,量产项目遍布十余个国家和地区。装配Momen
AI赋能下的卫星通信抗干扰技术新探
伴随人工智能(AI)技术的飞速迭代,其在航天通信领域的融合愈发紧密,尤其是在卫星通信抗干扰方面展现出巨大潜力。受限于频谱配置僵化、系统响应滞后及识别手段单一,传统抗干扰手段难以满足复杂电磁环境下的可靠性需求。本文详尽探讨了AI在卫星测控通信抗干扰中的应用,涵盖了“深度学习”、“强化学习”、“自适应滤波”、“图神经网络”等技术在干扰识别、抑制及动态频谱策略中的原理;并结合NASA、ESA、DARPA、SpaceX等机构的典型案例,剖析了AI在实际系统中的部署与成效。最后,总结了全球产业发展现状,展望了AI与