AI Agent核心突破：代码架构决定智能水平

发布时间：2026-06-08 12:28阅读：34

AI Agent的“骨骼”与“灵魂”：一个被严重低估的真相

当我们讨论AI Agent时，目光总是不自觉地聚焦在“大脑”——那款最强悍的大语言模型上。GPT-5比GPT-4好在哪里？Claude Opus又有什么新突破？这似乎成了衡量一切智能体能力的唯一标尺。

然而，斯坦福大学的研究人员却用一个数据，颠覆了所有人的认知：

这个令人震惊的发现，迫使我们重新审视AI Agent的本质。它远比我们想象的要复杂，也更充满工程智慧。我们正从“模型为王”的时代，大踏步迈入“管道为王”的新纪元。

谁是Harness？为什么它如此关键？

LangChain给出了一个极其精准的定义：

Model是模型，是那个提供智能和逻辑的“大脑”。而Harness，就是包裹在Model之外，让其能够真正工作的所有“骨骼”、“肌肉”和“神经”。

一个形象的比喻是：裸模型是CPU，而Harness就是操作系统。

这个“操作系统”协调着“CPU”何时看到什么数据，如何执行任务，如何应对失败。正是这些架构选择，而非底层的模型型号，导致了那令人咋舌的6倍性能差异。

“手工打造”的混乱：从Anthropic到OpenAI的进化之路

既然Harness如此重要，人们是如何构建它的呢？

答案是：一团混乱。逻辑散落在控制器代码、框架默认设置和验证脚本中。两个看似只有“一处设计不同”的系统，其背后可能意味着提示词、工具、验证逻辑和状态管理都截然不同。

Anthropic的实践揭示了初代Harness的两大“死穴”：

他们最终构建了一个受GAN（生成对抗网络）启发的三Agent架构：规划者、生成者和评估者。评估者会像真实用户一样，在运行的应用中点来点去，检查结果。成本飙升了20倍（200美元 vs 9美元），但换来了任务的最终完成。

OpenAI的探索则更为宏大。他们内部孵化了一个完全由Agent驱动的软件开发项目，生成了100万行代码、测试和CI。他们的发现是：工程团队的首要任务，变成了“如何让AI Agent做有用的工作”。这个过程生产性很强，但极度临时、不可移植、难以控制。

颠覆性发现：用“自然语言”编写Agent逻辑

整个行业迫切需要一套标准，一种能将Harness逻辑显式化、可执行化的方法。

清华团队给出了一个大胆的答案：为什么不直接用结构化的自然语言来编写Agent的全部控制逻辑？

他们构建了一个名为NLAH（Natural Language Agent Harness）的系统，将Harness清晰地分为三层：

这种分离带来了工程上梦寐以求的能力：可控实验。

进行Harness设计时，你只需更换NLAH层，固定宪章层；想测试运行时策略，就反过来操作。这使得以前不可能实现的“干净消融实验”成为可能。

这背后有两个核心机制：

最让人震惊的成果是：将OS Symphony（一个原生桌面自动化代码Harness）的逻辑迁移到NLAH表述中，性能从30.4%飙升至47.2%，运行时间从361分钟降至141分钟，LLM调用次数从1200次暴跌至34次！

优化的艺术：如何自动找到“最优管道”？

如果表述方式如此重要，我们能否自动找到最优的Harness？

斯坦福团队的Meta Harness给出了肯定的答案。它将Harness本身视为一个优化目标。

它的工作流程像是一个“自我进化的工程师”：

关键发现：Harness优化具有跨模型迁移性。为一个模型（如Opus）优化出的Harness，可以立刻提升其他五个不同模型的性能。这意味着，未来可复用的资产，不再是模型，而是那个精妙的Harness。

更有趣的是，Meta Harness让一个较小的模型（Haiku）在排名上超过了更大的模型（Opus）。这证明了，再好的模型，也需要一个同样高效的“操作系统”才能发挥全部潜力。

新时代的法则：减法智慧与安全隐忧

所有这些研究最终指向了同一个结论：Harness工程已经取代Prompt工程，成为当下的主旋律。

但它的实践形态反直觉：

当你发现模型已经不需要上下文重置时，就果断移除它。Vercel的故事更经典：他们移除了Agent 80%的工具，结果却获得了更好的结果。

当前方一片光明时，我们也必须看到阴影。标准化的Harness也带来了安全问题：Prompt注入、恶意工具植入等问题将变得更加隐蔽和高危。研究已经发现，社区贡献的Agent技能中，有四分之一存在安全漏洞。如何构建安全、可信的Harness，是下一个巨大的挑战。

金句卡片

Source:https://www.youtube.com/watch?v=Xxuxg8PcBvc