特朗普颁布 AI 新规与英伟达开启智能体芯片新篇
今日资讯干货满满,囊括政策动向、硬件革新,以及多篇探讨“智能体究竟能攻克多难任务”的硬核学术成果。
最受瞩目的新闻莫过于特朗普于 6 月 2 日正式签署 AI 行政命令,强制要求各大 AI 企业在推出最强模型前,需提前 30 天向政府开放安全测试权限,此举引发了监管与创新之间博弈的热烈讨论。同期,英伟达在台北 COMPUTEX 展会上推出了七芯合一的 Vera Rubin 平台,标志着智能体 AI 时代的算力基建正式迈入量产阶段。
学术领域方面,一篇论文评估了 17 个前沿模型是否具备“持续迭代”以解决长链条任务的能力——结果显示多数模型要么半途而废,要么耗光时间预算却毫无寸进;另一项名为 KINA 的新基准通过 899 道跨越 261 个细分学科的题目,揭示了当前顶尖模型在知识广度上的局限。内容详实,我们逐一解析。
这是过去 48 小时内最值得关注的政策层面动态。
6 月 2 日,美国总统特朗普正式签署了题为《促进前沿人工智能创新与安全》的行政令。该文件的出台过程颇为曲折——其原本是上月拟定的草案,当时规定 AI 公司在模型全面发布前最多需提前 90 天向政府开放访问权限,以便进行网络安全能力评估。在科技企业集体游说后,审查窗口被压缩至 30 天,特朗普先是于 5 月 21 日搁置了原草案,最终在 6 月 2 日以“精简版”形式正式落地。
该行政令的核心机制在于自愿参与的基准测试:政府邀请企业允许联邦官员提前接触模型,重点评估其“高级网络能力”——即发现并利用软件漏洞等具有破坏性的能力。若模型被认定为“受监管前沿模型”,则必须在发布前接受专项审查。这项政策的直接导火索,正是 Anthropic 的 Mythos 系列模型在网络攻防领域展现出的惊人实力——据报道,该模型可自动发现并利用主流软件中大量未修补的漏洞,令国家安全部门深感不安。
值得注意的是,行政令的整体基调并非全面监管,而是强调“拒绝扼杀创新、同时应对国家安全挑战”的双重目标,要求国家安全与网络官员同顶尖科技公司协作,共同解决 AI 识别出的软件漏洞。这标志着特朗普政府的 AI 政策正式从“不干预”转向“有限度的安全共治”——虽然力度较拜登时代温和许多,但方向性的转变已然确立。
接下来这条消息,是近两年 AI 硬件领域最重大的进展之一。
6 月 1 日,英伟达 CEO 黄仁勋在台北 COMPUTEX 大会上发表了近两小时的主题演讲,正式宣布:下一代 AI 超级芯片平台 Vera Rubin 已全面进入量产,预计将于今年秋季正式发货。
黄仁勋开场首语颇具历史意义:两年前播下的生成式 AI 种子如今已结出硕果。“有用的人工智能已经到来”,他表示,“而其核心标志正是智能体 AI 的全面爆发。”这不仅是一句口号,整个 Vera Rubin 平台的设计理念正是围绕这一判断展开的。
Vera Rubin 并非单块芯片,而是由七块组成——七款经过极致协同设计的新芯片,共同构建了一个高度集成的 AI 超级计算系统:包括 Rubin GPU、Vera CPU(拥有 88 个自研 Arm 核心,单核性能较 x86 提升约 50%,能效提升两倍)、第六代 NVLink 交换机、超级网卡、DPU、存储芯片以及以太网交换机芯片。整个平台相比上一代 Blackwell 架构性能提升约 3.3 倍,专门针对长上下文推理、多步骤任务规划等智能体工作负载进行了优化。
顺便一提,英伟达还在此次大会上与微软联合发布了 RTX Spark 超级芯片,这是英伟达首款 Arm 架构 PC 处理器(内部代号 N1X),整合了 20 核 CPU 和 6144 个 CUDA 核心,共享内存高达 128GB,定位为个人 AI 计算机,秋季将随微软、戴尔、惠普等品牌的新款笔记本一同上市,直指高通在 AI PC 市场的份额。
OpenAI、Anthropic 已成为该平台的首批采购方。对于整个 AI 生态而言,算力基础设施的量产节奏直接决定了接下来模型迭代速度的上限。
接下来这篇来自学术前沿,指向一个日益关键的能力缺口:大模型真的能完成长达数小时、需要反复调整的复杂工程任务吗?
来自华盛顿大学、麻省理工、普林斯顿、谷歌等多机构的研究者共同推出了 AutoLab——一个专门评测“超长链闭环优化”能力的新基准。与现有基准最大的不同在于:AutoLab 的每个任务都从一个“正确但故意设计得不够优化”的基准方案出发,要求智能体在严格的实时时间预算内,反复测量、修改、整合反馈,持续将结果做得更好。
该基准涵盖 36 个真实任务,横跨四个领域:系统优化、解谜挑战、模型开发和 CUDA 内核优化,全部由领域专家精心设计。在评测了 17 个当前最先进的模型后,结论颇出人意料:决定成败的最强预测因子并非模型初次尝试的质量,而是它是否有耐心一直运行下去——持续测试、持续修改、持续将经验反馈到下一轮迭代。
最终结果显示:大多数前沿模型,包括多个闭源商业模型,要么在中途主动放弃,要么时间预算耗尽却无明显进展。Claude Opus 4.6 在长链优化上表现出了相对最强的持续性。研究者认为这揭示出一个关键短板:当前模型缺乏真正的“时间感知”能力——它们不懂得合理分配多轮迭代预算,无法在长线任务中保持高质量的自驱动节奏。
AutoLab 的完整基准、评测框架和任务数据均已开源,这对智能体工程落地而言是一个极具价值的测试平台。
如何真正衡量一个大模型“知道多少”?这个问题比表面看起来复杂得多。
一直以来,知识类基准存在三个共同缺陷:设计上往往偏向英文和 STEM 热门学科,导致覆盖不均衡;标注依靠“平均分”而非质量机制,容易因评注者偷懒形成“懒人共识”;以及在有限测题数下,相邻排名的模型之间差距在统计上并不显著。
来自多机构的研究者提出了 KINA——一个覆盖 261 个细分学科、共 899 道题的新型知识基准。KINA 拥有两个理论上的形式化保证:第一,用覆盖率目标来量化“学科代表性”,并通过贪心近似算法保证选题的学科多样性;第二,用“奖励晋级制”代替传统的平均付费机制——通过博弈论证明,给表现优异的标注者额外奖励在机制设计意义上优于平均付费,能有效减少低质量标注。
在评测了 42 个来自 13 家机构的模型后,第一梯队的分布浮出水面:Gemini-3.1-Pro-Preview 以 53.17% 排名第一,Claude Opus 4.6 以 49.92% 位列第二,GPT-5.4 以 48.55% 排名第三——第一梯队的天花板仅为 53%,说明当前最强模型仍有巨大的知识空白。排名结构呈现出明显的分层,而非平滑递进,相邻排名之间的差异需用误差区间来解读,不能简单以名次高低论英雄。
这篇论文对于如何设计更可信的大模型评测体系具有极强的方法论参考价值。
最后这篇,来自多智能体系统的工程实践层。
多智能体协作系统正成为真实产品的核心架构,但一个容易被忽视的问题是:不同机构开发的智能体若要互相协作,彼此之间用什么“语言”沟通?缺乏标准化的交互协议,每接入一个新伙伴就要重写一套接口,系统无法真正扩展。
来自马萨诸塞州立大学等机构的研究者发布了 Strabo 框架,核心思路是将多智能体系统里的“交互协议”从代码实现中抽离出来,用声明式语言进行形式化描述。他们以谷歌主导的电商 AI 交互标准 UCP(Universal Commerce Protocol)为演练对象:将 UCP 中的结账流程建模为 Langshaw 声明式协议,用配套的 Peach 编程模型实现智能体,并验证这套声明式实现可以与谷歌原生的 UCP 实现成功互操作——无需改动任何一方的底层实现。
这意味着:基于形式化声明协议编写的智能体可以平滑地插入到原有生态中,无需从头重建整套系统。对于那些需要在企业内网或平台生态里逐步引入智能体协作的团队来说,这种“渐进式互操作”思路具有极高的实际参考价值。
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
作者/机构:Zhangchen Xu 等(华盛顿大学/MIT/普林斯顿/谷歌等)