AI智能体Harness框架：架构原理与实战设计全解析

发布时间：2026-05-19 00:42阅读：15

本次分享聚焦AI智能体Harness框架的核心架构设计与工程实践。

提示工程（Prompt Engineering）：精心设计模型输入指令的技巧与方法。

上下文工程（Context Engineering）：控制模型在特定时机获取特定信息的策略。

驾驭工程（Harness Engineering）：整合上述两者，并涵盖完整应用基础设施：工具编排、状态持久化、容错恢复、验证循环、安全执行及生命周期管理。

对话压缩（Compaction）：当接近上下文限制时对对话历史进行总结。Claude Code保留架构决策和待修复的缺陷，同时清除冗余的工具输出。

观察屏蔽（Observation Masking）：JetBrains的Junie隐藏历史工具输出，但保持工具调用记录可见。

即时检索（Just-in-time Retrieval）：维护轻量级标识符并动态加载数据。Claude Code采用grep、glob、head、tail等命令，而非一次性加载完整文件。

子智能体委托（Sub-agent Delegation）：每个子智能体执行广泛探索，但仅返回1000到2000个token的精炼摘要。

单智能体与多智能体的选择。

Anthropic和OpenAI均建议：优先最大化单智能体能力。多智能体系统会带来额外开销，包括额外的路由大语言模型调用以及交接时的上下文丢失。仅当工具数量超过10个且存在重叠，或任务域明显分离时，才考虑进行拆分。

ReAct与计划-执行模式对比。

ReAct在每一步交替进行推理和行动（灵活性高但每步成本较大）。计划-执行模式将规划与执行阶段分离。LLMCompiler的测试数据显示，比顺序ReAct快3.6倍。

上下文窗口管理策略。

五种生产环境级别的方案：基于时间的清除、对话摘要、观察屏蔽、结构化笔记和子智能体委托。ACON研究表明，通过优先保留推理链路而非原始工具输出，token消耗降低26%到54%，同时准确率维持在95%以上。

验证循环设计。

计算验证（测试、linter）提供确定性的事实依据。推理验证（大语言模型作为评判者）能捕获语义层面的问题但会增加延迟。Martin Fowler的Thoughtworks团队将其定义为引导器（前馈机制，在行动前引导方向）与传感器（反馈机制，在行动后观察结果）。

权限与安全架构。

宽松模式（快速但风险较高，自动批准大多数操作）与严格模式（安全但效率较低，每个操作都需要审批）。具体选择取决于实际部署场景。

工具范围策略。

工具数量过多通常会导致性能下降。Vercel从v0中移除了80%的工具，反而获得了更好的效果。Claude Code通过懒加载实现了95%的上下文缩减。核心原则：仅暴露当前步骤所需的最小工具集。

Harness厚度设计。

需要权衡多少逻辑位于Harness中，多少留给模型处理。Anthropic押注轻量级Harness和模型本身的持续改进。基于图的Harness则强调显式控制。Anthropic经常从Claude Code的Harness中移除规划步骤，因为新一代模型已经内化了这种能力。

以上就是本次分享的主要内容。