英伟达AI智能体7天自主优化GPU内核，超越人类专家

发布时间：2026-03-30 10:39阅读：19

-定制专属模型就像打开浏览器一样简单-

点击图片，立即体验

人类认知能力，已成为软件工程的瓶颈

这应该是2026年3月最震撼的科技新闻。

在许多算子开发者的微信群里，已经引起了极大的反响。

“这或许是超人类智能在软件领域的首次展现。”英伟达研究员许冰刚刚在X上发表了如此观点。他所谈论的，正是他与Terry Chen和Zhifan Ye共同完成的一项英伟达新研究——AVO。

在这项刚刚提交到arXiv的研究中，英伟达构建了Agentic Variation Operator（AVO），一种新型进化变异算子。它用自主编码智能体取代了经典进化搜索中的固定变异、交叉和人工设计的启发式方法，并取得了显著的实际效果。

过去两三年间，大模型已经从“新鲜事物”变成了许多人工作与生活的一部分。从ChatGPT到Qwen、DeepSeek，模型的通用能力不断突破，但在真实业务场景中，许多团队和开发者却遇到这样的困境：模型“什么都能聊”，却总是在专业问题上“答不到点子上”。

要让大模型真正理解行业、服务业务，微调已成为必要步骤。然而，传统微调路径依然存在高门槛——环境配置复杂、GPU算力成本高昂、调参过程晦涩难懂，让许多团队望而却步。

现在，这一切有了更简单的解决方案。LlamaFactory Online将微调门槛降至最低，定制一个专属模型就像打开浏览器一样简单。

扫码领福利解锁微调新体验

目前平台活动期间送福利，新用户可享50元无门槛代金券，可免费使用高性能GPU算力微调6.5小时。

LlamaFactory Online

7天自主进化，超越人类专家

许冰表示：“在一些高度优化的注意力机制工作负载中，智能体在没有人工干预的情况下，连续搜索7天，从而超越几乎所有人类GPU专家。”——AVO的表现，可能会让许多内核和DSL开发者感到不安。

研究团队将AVO部署在一个极具挑战性的任务上：在NVIDIA Blackwell B200 GPU上优化多头注意力（Multi-head Attention，MHA）核心代码。注意力机制是Transformer架构的核心，也是AI芯片上被优化得最密集的计算目标之一。

在完全没有人类干预的情况下，AVO智能体连续自主运行了7天。

在这7天里，智能体在后台探索了超过500个优化方向，并最终提交了40个有效迭代版本。最终，它生成的MHA核心在BF16精度下实现了高达1668 TFLOPS的吞吐量。

在基准测试中，AVO的成绩令人惊叹：

● 相比英伟达官方为Blackwell定制的闭源cuDNN库，吞吐量提升了最高3.5%

● 相比目前最前沿的开源基准FlashAttention-4，吞吐量提升了最高10.5%

LlamaFactory Online

强大的泛化能力：30分钟迁移至新任务

更令人印象深刻的是，这些由智能体发现的底层微架构优化，并非只针对特定场景的过度拟合。

当研究人员要求AVO将优化好的MHA核心适配到如今大模型常用的分组查询注意力（Grouped-query Attention，简称GQA）时，智能体仅用了约30分钟的自主调整就完成了任务。

在GQA的测试中，AVO依然保持了绝对领先优势：

● 性能比cuDNN高出最高7.0%

● 比FlashAttention-4高出最高9.3%

这表明，智能体在MHA进化过程中发现的计算和内存访问优化模式，能够有效泛化到具有不同计算特征的GQA任务中。

LlamaFactory Online

深入底层的微架构推理

分析AVO提交的代码变更可以看出，AI智能体并非在做表面功夫，而是进行了真正的深入硬件底层的逻辑推理：

无分支累加器重缩放：通过消除条件分支，智能体排除了warp同步的开销，并替换了更轻量级的内存屏障，使得非因果注意力的吞吐量一次性提升了8.1%。

纠错与张量核心（MMA）流水线重叠：智能体重新组织了执行流水线，将原本顺序执行的依赖关系转化为交叠的流水线执行，大幅减少了硬件的空闲等待时间。

跨warp组的寄存器重新平衡：智能体通过分析性能分析器的数据，发现某些运算组因为寄存器不足而导致数据溢出至慢速本地内存。它果断对Blackwell的2048个寄存器预算进行了重新分配，进一步压榨出2.1%的性能提升。

英伟达的这项研究证明，AI智能体已经具备了处理多硬件子系统（如同步、内存排序、流水线调度和寄存器分配）联合推理的能力。

LlamaFactory Online

“盲编程”：从被动生成器到进化操盘手

困在固定的流水线里，仅仅充当候选代码的生成器。每次调用只能输出一次结果，无法主动查阅参考资料、测试代码、理解反馈或在最终提交前修正策略。

对于需要深度、反复迭代的顶级硬件优化任务来说，这种限制尤为致命。

AVO打破了这一局限，将“变异算子”实例化为一个自我驱动的智能体循环。这个AI智能体可以自由查阅之前的代码版本记录、调用领域专属的知识库（如CUDA编程指南和PTX架构文档），并根据执行反馈来主动提出、修复、批判和验证代码修改。

简而言之，AVO将AI从被动的“代码生成器”提升为了掌握全局的“进化操盘手”。

有意思的是，许冰在X推文中分享说，一年半之前他与Terry Chen刚开始在英伟达研究智能体编程时，他们还不懂GPU编程。“所以从一开始我们就致力于开发完全自动化、无需人工干预的系统。”他们称之为“盲编程”（blind coding）。

“在过去一年半的时间里，我们两人在两个智能体系统中开发了四代智能体。从第二代开始，这些智能体栈就开始自我演化。现在每个智能体的代码行数都约为10万行（非空代码）。”

许冰重点强调了AVO背后的重大意义：“我敢打赌：盲编程是软件工程的未来。人类认知能力是瓶颈。”

LlamaFactory Online

算子工程师的“生存危机”？

AVO的成果引发了一个无法回避的问题：当AI智能体能够在7天内超越人类GPU专家的优化成果，算子工程师的职业前景在哪里？

这并非危言耸听。在2026年GTC大会上，英伟达CEO黄仁勋描绘了一幅更为宏大的图景：人类工程师将转变为“管理者”，只需输入极少的指令，就能监督大量AI智能体自主完成复杂的多步骤任务。

黄仁勋透露，英伟达目前拥有4.2万名人类员工，未来将配备数十万名“数字员工”。这些AI智能体将自动完成繁琐的任务，大幅提升生产力。

为此，黄仁勋甚至提出了一项颠覆性的薪酬模式：在工程师几十万美元底薪的基础上，额外发放相当于底薪50%的“AI算力Tokens”，鼓励员工调用AI智能体来提升生产力。

LlamaFactory Online

“人才悖论”与新机会

然而，这种高度自动化的愿景也加剧了业界对“白领失业”的恐慌。

高盛预测，AI有望让生产力提升15%，但也可能接管美国25%的工作时长，并导致6%至7%的岗位被彻底取代。

当前职场正陷入一种“人才悖论”：美世咨询指出，尽管98%的高管预计AI将在未来两年内引发裁员，但仍有54%的高管将“人才短缺”视为首要挑战。

企业极度缺乏具备AI素养的熟练员工，而负责数据分析、文档处理的初级岗位却面临被率先淘汰的风险。初级岗位的消失正在切断职场新人传统的培训与晋升路径，进一步拉大了技能鸿沟。

不过，高盛经济学家约瑟夫·布里格斯认为，尽管就业市场在转型期会经历失业率上升的阵痛，但技术变革长远来看总会催生全新的职业。约60%的现有工作岗位在1940年时并不存在。

LlamaFactory Online

软件工程的新范式

AVO作为通用型进化变异算子，为自动化软件系统优化指明了新方向，不仅适用于AI芯片与深度学习底层开发，更能在高算力需求的科学工程领域广泛应用。

而在大模型日常研发中，这一理念早已落地，LlamaFactory Online它将繁琐的模型微调、训练流程可视化，省去环境搭建与底层代码编写环节，让工程师专注定义目标、配置参数，交由平台自动完成训练调优，完美契合“人类做定义者，AI做执行者”的行业趋势。

英伟达这项研究证实，AI智能体已具备复杂硬件联合推理能力，AVO的自主进化，更标志着AI在软件工程中从辅助工具向自主主体的蜕变。

正如许冰所言，盲编程正是软件工程的未来。当AI能无休迭代优化、自主钻研硬件逻辑，人类工程师终将从执行者，转向问题定义与结果评估的核心角色。

AI自主进化的浪潮已至，你准备好了吗？

LlamaFactory Online用户交流群

长按扫码进群

💰领【注册有礼】30元无门槛代金券

💰和【进群金喜】20元无门槛代金券

👇关注大模型微调Online

第一时间获取前沿知识、成功案例！

关于我们..

LlamaFactory Online是一个简单易用且高效的大型语言模型训练与微调平台。通过它，您可以在无需编写任何代码的前提下，在云端完成上百种预训练模型的微调。

平台优势

官方合作，背书可靠：与明星开源项目 LlamaFactory 官方合作出品，技术路线成熟，更新及时。

低代码可视化，极简操作：提供友好易用的Web界面，一键调度云端GPU资源，即使没有技术背景也能快速上手微调。

全链路支持，开箱即用：覆盖模型微调训练全流程，从数据上传、预处理、微调、监控到评估，一气呵成。

灵活适配，应用场景广泛：无论你是个人开发者、技术爱好者、初创团队还是教育科研用户，都可低门槛、低成本开启大模型定制实践。

近期文章

阿里云突然宣布：最高涨34%！告别“价格战”，AI算力正式进入稀缺时代

「百业千模・共创营」第二期聚焦启动！你的专业认知，才是AI时代最稀缺的“数据富矿”

大模型微调跑崩、跑废，可能是加载与续训在捣乱

让AI学会“讨人喜欢”：用PPO-RW给Qwen3-1.7B装上“审美神经”

MiniMax M2.7开启“自我进化”：AI正从“被训练”走向“自己长大”