AI工作新视角:Anthropic的Harness工程理念

发布时间：2026-03-29 23:45阅读：13

这两年，关于大型模型的讨论中，最热门的话题一直是提示词。

如何编写提示词，设定角色，让模型更理解你，把一句话扩展成三段咒语，似乎只要方法对了，AI就会突然开窍，变成一个不眠不休、精准执行的超级助手。

很多人都经历过那个阶段。深夜对着对话框，删一句，加一句，前面铺垫背景，后面补充要求，中间再来一句请一步步思考。屏幕里的模型也确实挺配合，态度认真，语气沉稳，常常让人产生一种错觉：这事差不多稳了。

真把它应用到工作中，感觉就变了。

AI能讲出一套修bug的思路，但真正动手时，日志没看，测试没跑，文件改了两处，最后还很平静地告诉你问题已解决。你刷新页面，白屏还在。那一刻特别像什么？像一个面试表现满分的新同事，第一天上岗，在会议室里分析得头头是道，回到工位却连项目怎么启动都不知道。

Anthropic提出的Harness工程，说白了，就是在提醒大家：不要只关注模型能输出什么，决定它是否实用的，往往是你给它搭建了一个怎样的工作环境。

Harness这个词本身挺有意思，原意接近马具、束带、控制装置。放到AI身上，它不是在描述模型本体，而是在说模型周围那一整套让它能做事、也能被约束的东西。你给它什么工具，它能看到什么信息，能否读文件，能否运行终端，改完代码后谁来验收，出错怎么回退，碰到高风险动作要不要先停下来问一句——这些，全都算。

这听起来不像一个新概念，更像是给这个行业补常识。

因为过去一段时间，不少人确实把模型想得太像许愿机了。任务写清楚一点，语气坚定一点，提示词复杂一点，好像执行力就会自动增强。但现实世界不是聊天室。你让一个人修代码，起码得让他看仓库吧；你让一个人分析故障，总得把日志给他吧；你让一个人改页面，改完之后总得让他自己点开看一眼吧。

这些东西，过去在很多AI应用里都被轻轻带过了。大家更愿意讨论模型是否会思考，却不太关心它有没有工作台。

我想到一个挺形象的场景。你把一个特别聪明的实习生领进办公室，给他安排了任务，却忘了发电脑，没开权限，不告诉他文档在哪，也不告诉他项目部署在哪台机器上。中午路过时你问：进展怎么样？他只好硬着头皮说：我初步形成了一些判断。这不是他不努力，是你根本没让他接触真实世界。

很多大模型现在就是这种状态。脑子不差，嘴也利索，就是没摸到门把手。

这也是为什么Anthropic现在会把注意力从提示词工程转向Harness工程。不是提示词不重要了，而是它的重要性正在回归一个更正常的位置。提示词就像你交代工作的方式。说得明白一点，当然有帮助。但一个团队能不能把活干出来，从来不只是靠交代得好。还得看流程、工具、权限、校验和责任边界。换到AI身上，这套逻辑同样适用。

你看今天那些真正好用的编码助手，强的地方往往不只是模型本身。像Cursor这样嵌入IDE的工具，为什么上手就比普通聊天框靠谱？因为它离代码现场近。文件树在旁边，diff在旁边，报错在旁边，光标停在哪一行，它也知道。你不是在隔空请教一个懂技术的网友，更像是旁边坐了个能看你屏幕、帮你改文件、改完还能顺手检查的搭档。

再比如终端里的AI助手。它们厉害的时候，并不是因为说话更有哲理，而是因为它真的能进入repo，能搜文件，能执行命令，能看stderr，失败一次再来一次。过程很笨，很工程化，很不浪漫，但这才叫干活。

有时候行业里最有价值的进步，反而不是那些一眼看上去很酷的东西，而是把那些不酷、却决定成败的部分补齐。Harness工程就属于这种。它没那么适合做发布会海报，不像通用人工智能几个字那么有宇宙感，但它触及的是应用落地中最痛的地方。

想想看，一个AI如果能说会道，却不会验证结果，那它特别像一种新型办公室生物：报告写得漂亮，结论下得果断，问就是已处理，仔细一看，什么都没落地。你让它改一个前端问题，它分析半天flex、render、hydration，最后连页面都没重新打开。你让它查线上故障，它头头是道地列出五种可能性，结果连日志文件路径都猜错了。

这不是能力问题，是工作方式出了问题。

Anthropic的这套说法，最打动人的地方就在这儿：它把模型到底好不好用这个问题，从一种略带神秘感的智力崇拜，重新拉回到工程现实中。别老问它是不是足够聪明，先问问它有没有眼睛，有没有手，有没有仪表盘，有没有刹车。

很多人喜欢把助手想象成一个自主行动的数字员工，听起来很高级。但真要让一个数字员工进场，不是给一句口号就行的。你总得告诉它哪儿能去，哪儿不能去；哪些文件能改，哪些系统碰都别碰；什么时候可以自动执行，什么时候得先打报告。说得再直白一点，真正像公司的，不是模型，而是Harness。模型像新来的脑力劳动者，Harness才是工位、门禁、流程、内网权限和那个总在最后拍板的主管。

这里还有一个特别现实的词，叫安全。

许多AI演示，最容易忽略的就是这部分。因为一讲权限控制、审批节点、审计日志，故事立刻没那么丝滑了，没有那种从一句话到自动完成的爽感。但现实不是短视频。现实中，谁能删文件，谁能发外部消息，谁能推生产环境，这些事情从来就不靠浪漫主义解决。你要是把一个模型直接接到真实系统上，又不给它边界，那不叫先进，叫心大。

所以，Harness工程也可以理解成一种去魅：AI不是什么会自动进化的电子神谕，更像一个需要被安排进制度和环境里的新型执行者。你给它一套像样的工作结构，它就可能干得不错；你只给它一个对话框，再加一堆热情洋溢的提示词，它大概率还是会在关键时刻露出纸上谈兵的底色。

这个概念之所以重要不是因为发明了多少新技术，而是因为它把大家的注意力从怎么让模型回答得像那么回事，转移到怎么让模型真的把事情做完。

这两者差得可太远了。

前者比较像训练一个人把汇报说得圆润。

后者更像把一个人放进现场，看他能不能把机器修好、把页面救活、把系统跑通。

要我说，Anthropic这次提的不是一个花哨新词，而是一句带着工程味的提醒：AI应用正在从聊天产品进入工作系统阶段。

再讲得土一点，就是——别光顾着教它说漂亮话，先给它配台能干活的电脑。

← 上一篇：AI 浪潮下，育儿新策略——AI 教育圆桌会议实录下一篇：2026 AI流畅性必备：Anthropic 4D框架（委托+描述+辨别+勤勉） →