标签

AI Agent核心突破:代码架构决定智能水平

发布时间:2026-06-08 12:28来源:微信阅读:2

AI Agent的“骨骼”与“灵魂”:一个被严重低估的真相

当我们讨论AI Agent时,目光总是不自觉地聚焦在“大脑”——那款最强悍的大语言模型上。GPT-5比GPT-4好在哪里?Claude Opus又有什么新突破?这似乎成了衡量一切智能体能力的唯一标尺。

然而,斯坦福大学的研究人员却用一个数据,颠覆了所有人的认知:

这个令人震惊的发现,迫使我们重新审视AI Agent的本质。它远比我们想象的要复杂,也更充满工程智慧。我们正从“模型为王”的时代,大踏步迈入“管道为王”的新纪元。

谁是Harness?为什么它如此关键?

LangChain给出了一个极其精准的定义:

Model是模型,是那个提供智能和逻辑的“大脑”。而Harness,就是包裹在Model之外,让其能够真正工作的所有“骨骼”、“肌肉”和“神经”。

一个形象的比喻是:裸模型是CPU,而Harness就是操作系统。

这个“操作系统”协调着“CPU”何时看到什么数据,如何执行任务,如何应对失败。正是这些架构选择,而非底层的模型型号,导致了那令人咋舌的6倍性能差异。

“手工打造”的混乱:从Anthropic到OpenAI的进化之路

既然Harness如此重要,人们是如何构建它的呢?

答案是:一团混乱。逻辑散落在控制器代码、框架默认设置和验证脚本中。两个看似只有“一处设计不同”的系统,其背后可能意味着提示词、工具、验证逻辑和状态管理都截然不同。

Anthropic的实践揭示了初代Harness的两大“死穴”:

他们最终构建了一个受GAN(生成对抗网络)启发的三Agent架构:规划者、生成者和评估者。评估者会像真实用户一样,在运行的应用中点来点去,检查结果。成本飙升了20倍(200美元 vs 9美元),但换来了任务的最终完成。

OpenAI的探索则更为宏大。他们内部孵化了一个完全由Agent驱动的软件开发项目,生成了100万行代码、测试和CI。他们的发现是:工程团队的首要任务,变成了“如何让AI Agent做有用的工作”。这个过程生产性很强,但极度临时、不可移植、难以控制。

颠覆性发现:用“自然语言”编写Agent逻辑

整个行业迫切需要一套标准,一种能将Harness逻辑显式化、可执行化的方法。

清华团队给出了一个大胆的答案:为什么不直接用结构化的自然语言来编写Agent的全部控制逻辑?

他们构建了一个名为NLAH(Natural Language Agent Harness)的系统,将Harness清晰地分为三层:

这种分离带来了工程上梦寐以求的能力:可控实验。

进行Harness设计时,你只需更换NLAH层,固定宪章层;想测试运行时策略,就反过来操作。这使得以前不可能实现的“干净消融实验”成为可能。

这背后有两个核心机制:

最让人震惊的成果是:将OS Symphony(一个原生桌面自动化代码Harness)的逻辑迁移到NLAH表述中,性能从30.4%飙升至47.2%,运行时间从361分钟降至141分钟,LLM调用次数从1200次暴跌至34次!

优化的艺术:如何自动找到“最优管道”?

如果表述方式如此重要,我们能否自动找到最优的Harness?

斯坦福团队的Meta Harness给出了肯定的答案。它将Harness本身视为一个优化目标。

它的工作流程像是一个“自我进化的工程师”:

关键发现:Harness优化具有跨模型迁移性。为一个模型(如Opus)优化出的Harness,可以立刻提升其他五个不同模型的性能。这意味着,未来可复用的资产,不再是模型,而是那个精妙的Harness。

更有趣的是,Meta Harness让一个较小的模型(Haiku)在排名上超过了更大的模型(Opus)。这证明了,再好的模型,也需要一个同样高效的“操作系统”才能发挥全部潜力。

新时代的法则:减法智慧与安全隐忧

所有这些研究最终指向了同一个结论:Harness工程已经取代Prompt工程,成为当下的主旋律。

但它的实践形态反直觉:

当你发现模型已经不需要上下文重置时,就果断移除它。Vercel的故事更经典:他们移除了Agent 80%的工具,结果却获得了更好的结果。

当前方一片光明时,我们也必须看到阴影。标准化的Harness也带来了安全问题:Prompt注入、恶意工具植入等问题将变得更加隐蔽和高危。研究已经发现,社区贡献的Agent技能中,有四分之一存在安全漏洞。如何构建安全、可信的Harness,是下一个巨大的挑战。

金句卡片

Source:https://www.youtube.com/watch?v=Xxuxg8PcBvc