AI智能体Harness框架:架构原理与实战设计全解析
本次分享聚焦AI智能体Harness框架的核心架构设计与工程实践。
提示工程(Prompt Engineering):精心设计模型输入指令的技巧与方法。
上下文工程(Context Engineering):控制模型在特定时机获取特定信息的策略。
驾驭工程(Harness Engineering):整合上述两者,并涵盖完整应用基础设施:工具编排、状态持久化、容错恢复、验证循环、安全执行及生命周期管理。
对话压缩(Compaction):当接近上下文限制时对对话历史进行总结。Claude Code保留架构决策和待修复的缺陷,同时清除冗余的工具输出。
观察屏蔽(Observation Masking):JetBrains的Junie隐藏历史工具输出,但保持工具调用记录可见。
即时检索(Just-in-time Retrieval):维护轻量级标识符并动态加载数据。Claude Code采用grep、glob、head、tail等命令,而非一次性加载完整文件。
子智能体委托(Sub-agent Delegation):每个子智能体执行广泛探索,但仅返回1000到2000个token的精炼摘要。
单智能体与多智能体的选择。
Anthropic和OpenAI均建议:优先最大化单智能体能力。多智能体系统会带来额外开销,包括额外的路由大语言模型调用以及交接时的上下文丢失。仅当工具数量超过10个且存在重叠,或任务域明显分离时,才考虑进行拆分。
ReAct与计划-执行模式对比。
ReAct在每一步交替进行推理和行动(灵活性高但每步成本较大)。计划-执行模式将规划与执行阶段分离。LLMCompiler的测试数据显示,比顺序ReAct快3.6倍。
上下文窗口管理策略。
五种生产环境级别的方案:基于时间的清除、对话摘要、观察屏蔽、结构化笔记和子智能体委托。ACON研究表明,通过优先保留推理链路而非原始工具输出,token消耗降低26%到54%,同时准确率维持在95%以上。
验证循环设计。
计算验证(测试、linter)提供确定性的事实依据。推理验证(大语言模型作为评判者)能捕获语义层面的问题但会增加延迟。Martin Fowler的Thoughtworks团队将其定义为引导器(前馈机制,在行动前引导方向)与传感器(反馈机制,在行动后观察结果)。
权限与安全架构。
宽松模式(快速但风险较高,自动批准大多数操作)与严格模式(安全但效率较低,每个操作都需要审批)。具体选择取决于实际部署场景。
工具范围策略。
工具数量过多通常会导致性能下降。Vercel从v0中移除了80%的工具,反而获得了更好的效果。Claude Code通过懒加载实现了95%的上下文缩减。核心原则:仅暴露当前步骤所需的最小工具集。
Harness厚度设计。
需要权衡多少逻辑位于Harness中,多少留给模型处理。Anthropic押注轻量级Harness和模型本身的持续改进。基于图的Harness则强调显式控制。Anthropic经常从Claude Code的Harness中移除规划步骤,因为新一代模型已经内化了这种能力。
以上就是本次分享的主要内容。