AI工作新视角:Anthropic的Harness工程理念
这两年,关于大型模型的讨论中,最热门的话题一直是提示词。
如何编写提示词,设定角色,让模型更理解你,把一句话扩展成三段咒语,似乎只要方法对了,AI就会突然开窍,变成一个不眠不休、精准执行的超级助手。
很多人都经历过那个阶段。深夜对着对话框,删一句,加一句,前面铺垫背景,后面补充要求,中间再来一句请一步步思考。屏幕里的模型也确实挺配合,态度认真,语气沉稳,常常让人产生一种错觉:这事差不多稳了。
真把它应用到工作中,感觉就变了。
AI能讲出一套修bug的思路,但真正动手时,日志没看,测试没跑,文件改了两处,最后还很平静地告诉你问题已解决。你刷新页面,白屏还在。那一刻特别像什么?像一个面试表现满分的新同事,第一天上岗,在会议室里分析得头头是道,回到工位却连项目怎么启动都不知道。
Anthropic提出的Harness工程,说白了,就是在提醒大家:不要只关注模型能输出什么,决定它是否实用的,往往是你给它搭建了一个怎样的工作环境。
Harness这个词本身挺有意思,原意接近马具、束带、控制装置。放到AI身上,它不是在描述模型本体,而是在说模型周围那一整套让它能做事、也能被约束的东西。你给它什么工具,它能看到什么信息,能否读文件,能否运行终端,改完代码后谁来验收,出错怎么回退,碰到高风险动作要不要先停下来问一句——这些,全都算。
这听起来不像一个新概念,更像是给这个行业补常识。
因为过去一段时间,不少人确实把模型想得太像许愿机了。任务写清楚一点,语气坚定一点,提示词复杂一点,好像执行力就会自动增强。但现实世界不是聊天室。你让一个人修代码,起码得让他看仓库吧;你让一个人分析故障,总得把日志给他吧;你让一个人改页面,改完之后总得让他自己点开看一眼吧。
这些东西,过去在很多AI应用里都被轻轻带过了。大家更愿意讨论模型是否会思考,却不太关心它有没有工作台。
我想到一个挺形象的场景。你把一个特别聪明的实习生领进办公室,给他安排了任务,却忘了发电脑,没开权限,不告诉他文档在哪,也不告诉他项目部署在哪台机器上。中午路过时你问:进展怎么样?他只好硬着头皮说:我初步形成了一些判断。这不是他不努力,是你根本没让他接触真实世界。
很多大模型现在就是这种状态。脑子不差,嘴也利索,就是没摸到门把手。
这也是为什么Anthropic现在会把注意力从提示词工程转向Harness工程。不是提示词不重要了,而是它的重要性正在回归一个更正常的位置。提示词就像你交代工作的方式。说得明白一点,当然有帮助。但一个团队能不能把活干出来,从来不只是靠交代得好。还得看流程、工具、权限、校验和责任边界。换到AI身上,这套逻辑同样适用。
你看今天那些真正好用的编码助手,强的地方往往不只是模型本身。像Cursor这样嵌入IDE的工具,为什么上手就比普通聊天框靠谱?因为它离代码现场近。文件树在旁边,diff在旁边,报错在旁边,光标停在哪一行,它也知道。你不是在隔空请教一个懂技术的网友,更像是旁边坐了个能看你屏幕、帮你改文件、改完还能顺手检查的搭档。
再比如终端里的AI助手。它们厉害的时候,并不是因为说话更有哲理,而是因为它真的能进入repo,能搜文件,能执行命令,能看stderr,失败一次再来一次。过程很笨,很工程化,很不浪漫,但这才叫干活。
有时候行业里最有价值的进步,反而不是那些一眼看上去很酷的东西,而是把那些不酷、却决定成败的部分补齐。Harness工程就属于这种。它没那么适合做发布会海报,不像通用人工智能几个字那么有宇宙感,但它触及的是应用落地中最痛的地方。
想想看,一个AI如果能说会道,却不会验证结果,那它特别像一种新型办公室生物:报告写得漂亮,结论下得果断,问就是已处理,仔细一看,什么都没落地。你让它改一个前端问题,它分析半天flex、render、hydration,最后连页面都没重新打开。你让它查线上故障,它头头是道地列出五种可能性,结果连日志文件路径都猜错了。
这不是能力问题,是工作方式出了问题。
Anthropic的这套说法,最打动人的地方就在这儿:它把模型到底好不好用这个问题,从一种略带神秘感的智力崇拜,重新拉回到工程现实中。别老问它是不是足够聪明,先问问它有没有眼睛,有没有手,有没有仪表盘,有没有刹车。
很多人喜欢把助手想象成一个自主行动的数字员工,听起来很高级。但真要让一个数字员工进场,不是给一句口号就行的。你总得告诉它哪儿能去,哪儿不能去;哪些文件能改,哪些系统碰都别碰;什么时候可以自动执行,什么时候得先打报告。说得再直白一点,真正像公司的,不是模型,而是Harness。模型像新来的脑力劳动者,Harness才是工位、门禁、流程、内网权限和那个总在最后拍板的主管。
这里还有一个特别现实的词,叫安全。
许多AI演示,最容易忽略的就是这部分。因为一讲权限控制、审批节点、审计日志,故事立刻没那么丝滑了,没有那种从一句话到自动完成的爽感。但现实不是短视频。现实中,谁能删文件,谁能发外部消息,谁能推生产环境,这些事情从来就不靠浪漫主义解决。你要是把一个模型直接接到真实系统上,又不给它边界,那不叫先进,叫心大。
所以,Harness工程也可以理解成一种去魅:AI不是什么会自动进化的电子神谕,更像一个需要被安排进制度和环境里的新型执行者。你给它一套像样的工作结构,它就可能干得不错;你只给它一个对话框,再加一堆热情洋溢的提示词,它大概率还是会在关键时刻露出纸上谈兵的底色。
这个概念之所以重要不是因为发明了多少新技术,而是因为它把大家的注意力从怎么让模型回答得像那么回事,转移到怎么让模型真的把事情做完。
这两者差得可太远了。
前者比较像训练一个人把汇报说得圆润。
后者更像把一个人放进现场,看他能不能把机器修好、把页面救活、把系统跑通。
要我说,Anthropic这次提的不是一个花哨新词,而是一句带着工程味的提醒:AI应用正在从聊天产品进入工作系统阶段。
再讲得土一点,就是——别光顾着教它说漂亮话,先给它配台能干活的电脑。