AI 产品核心:超越问答,深耕长任务执行
用户提出问题,AI 提供解答。用户上传文档,AI 进行总结。用户输入需求,AI 生成内容。
这确实具有价值。
一个系统能理解人类语言,生成内容,将杂乱信息整理成易懂的段落,这本身已是巨大变革。
但经过这两年的观察,我愈发认为,若仅将 AI 产品视为“问答工具”,可能仍低估了其潜力。
AI 产品的真正关键,不在于回答问题,而在于执行任务。
更确切地说,是执行长周期任务。
近期,我阅读了张小珺与姚顺宇的访谈,其中提到了 OpenClaw。姚顺宇指出,OpenClaw 展现的能力在 AI 圈内或许并不陌生,许多大型企业内部早已具备类似技术,只是尚未以产品形式发布。
这句话本身并不令人惊讶。
真正让我停顿思考的,是其背后的深意:
AI 不再仅仅回答一句话,而是在持续完成一件事。
这便是“长任务执行”。
回顾过去,我们去年 10 月在东京展会上展示的 Agent 能力,其实已初现端倪。
用户可通过机器人内的 FreeTalk 进行对话,系统依据对话内容搜索背后的网页信息,随后进行整理与反馈。
当时我们将此拆解为几个部分:
理解问题。执行问题。汇总结果。
如今再看,这已不完全是一个聊天机器人,而是在尝试让 AI 完成一段小型的任务链。
只是当时我们尚未将其命名为“长任务执行”。或者说,脑海中隐约已有此概念,但尚未将其提炼出来。
一种能力在未被命名之前,往往只是零散的功能;
一旦被命名,它便开始转化为产品方向。
为何“长任务执行”至关重要?
因为企业客户真正需要的,往往不是一个只会聊天的 AI。
客户真正关心的是:
能否帮我处理一个流程?能否帮我跟踪一个状态?能否帮我查阅资料、查看异常、生成方案,并推动下一步?能否将一个目标拆解为步骤,并切实地一路执行下去?
问答解决的是“信息问题”。长任务解决的是“工作问题”。
这两者差异巨大。
问答的终点是给出一个答案。长任务的终点是完成一个结果。
因此,聊天机器人只是入口,而非终点。
如果 AI 仅会回答,它仍只是工具;
如果 AI 能持续执行,它才开始接近生产力。
传统软件解决问题的方式,本质上是将流程固化。
先点击哪里,再填写什么,再审批给谁,再生成何种报表。
这种模式运行多年,成效显著。其基本逻辑是:人推动流程,系统负责记录与流转。
人是发动机,软件是轨道。
而 AI Agent 带来的变革在于:
系统不再被动等待操作,而是开始围绕一个目标主动推进。
它可以理解任务、拆解步骤、调用工具、读取资料,也能根据中间结果调整路径,在必要时请求人类确认,最后整理出结果。
表述未必严谨,但大体如此:
过去的软件像一张表、一条流程、一套按钮。未来的软件,更像一组可被调用、编排、监督的任务能力。
问答如同咨询。长任务如同助理。
咨询提供建议。助理协助推进。
建议固然重要,但推进更贴近真实工作。
长任务执行远比问答困难。
因为它不是一次性生成,而是一个持续过程。
在一次问答中,AI 只需给出一个相对合理的答案,即算完成任务。
但长任务不同。
它有起点,有中间状态,有异常,有反复,有人类介入,也有失败重试和最终交付。
这就像写一封邮件与办完一件事之间的区别。
写邮件,难度在于表达。办事情,难度在于闭环。
长任务执行至少涉及几个关键能力:
第一,记忆管理。
系统必须知晓此前发生了什么,当前进展如何,哪些信息已确认,哪些问题仍悬而未决。
缺乏记忆,任务便会中断。
第二,上下文管理。
在长任务中,信息量会不断增加。AI 必须知道哪些重要,哪些可忽略,哪些需长期保存,哪些仅在当前步骤有效。
缺乏上下文管理,任务便会混乱。
这犹如中年人开会。年轻时觉得反应快即可,后来才发现,真正难的是知道哪些话要记,哪些话听听就好,哪些话现在不说但日后会出问题。
第三,工具调用。
长任务不能仅靠语言生成。它必须能搜索、查询系统、调用接口、读取文件、写入结果、触发流程。
缺乏工具,AI 只能说,不能做。
企业客户并不缺乏“说得像那么回事”的系统。说实话,这类产品已不少见。
客户缺乏的是能将 ERP、CRM、工单系统、知识库、消息系统串联起来,真正助其向前推进一步的能力。
哪怕只是一小步,只要真实发生,就比一大段漂亮的回答更有价值。
第四,状态跟踪。
任务执行到何步,是否完成,是否失败,是否需要人工介入,都必须被管理。
缺乏状态,任务便不可控。
第五,责任边界。
AI 可执行许多步骤,但哪些环节必须人工确认?哪些结果可自动提交?哪些动作仅限建议,不可直接执行?出现问题谁负责?
缺乏责任边界,产品便无法进入真实业务。
因此,长任务执行并非简单地将提示词写长。
长任务执行,本质上是重新设计一套人机协作的工作系统。
若 AI 产品仅做问答,极易变成一种“看似聪明,但用完即止”的东西。
用户问完一个问题,得到一个答案,随后还得自行处理后续事宜。
这当然有用,但远远不够。
真正有价值的企业 AI,应向后多走几步。
不是仅告知供应链何处可能有风险,而是继续帮我查原因、找影响订单、生成处理方案、通知相关人员。
不是仅总结一次项目会议,而是继续提炼风险、分配行动项、跟踪完成情况、提醒延期事项。
不是仅回答客户问题,而是继续查订单、判断规则、提交工单、回写系统。
AI 产品的价值,不在于它说得多好,而在于它推动事情进展了多少。
对软件公司而言,这一判断尤为关键。
因为若 AI 产品的核心仅是问答,它极易被通用大模型覆盖。
通用模型日益强大,问答能力将愈发普及。许多曾令人惊艳的 AI 问答功能,很快将变为基础能力。
正如当年的搜索、地图、支付、视频会议,最初皆是“能力”,后来便成了“水电煤”。
软件公司的真正机遇,并非打造一个更会聊天的窗口,而是将 AI 嵌入客户真实工作流,使其承担一段可交付的任务。
因为长任务必然发生在具体业务场景中。
它需要理解行业规则、客户流程、系统数据、异常处理、组织分工,也需要明白何时自动执行,何时必须人工确认。
这些非通用模型单独所能解决。
通用模型可提供底层能力,但它不知晓一家制造企业的交付节奏,不知晓一家物流公司的异常处理习惯,也不知晓一个客户内部究竟谁说了算、谁仅是流程节点。
这些东西不在模型参数中。
它们潜藏在业务现场,潜藏在系统集成中,潜藏在一次次项目交付与客户沟通里。
这也是行业软件公司的价值所在。
问答能力将愈发通用,任务执行才会愈发行业化。
因此,判断一个 AI 产品是否有长期价值,可看一个问题:
它是在回答问题,还是在完成工作?
若仅回答问题,它很可能只是入口。若能完成工作,它才可能成为系统。若能持续完成一类工作,它才可能成为客户离不开的生产力工具。
我愈发觉得,AI 产品大概会经历三个阶段。
第一阶段,是问答。AI 帮人寻找信息,生成内容。
第二阶段,是协作。AI 参与人的工作过程,帮人写、帮人改、帮人判断。
第三阶段,是执行。AI 围绕一个目标,持续推进任务,直至产生结果。
现今许多产品仍停留在第一阶段。优秀产品正进入第二阶段。真正具备商业想象力的产品,必将走向第三阶段。
当然,“一定”这个词或许说得稍满。技术发展向来不太听人总结,尤其不太听中年人的总结。但至少对软件公司而言,机遇确实在此。
不要只做一个会回答问题的 AI。要做一个能进入流程、推动任务、交付结果的 AI。
因为客户最终购买的并非答案。
客户购买的是结果。