标签

大模型驱动下对智能体的几点思考

发布时间:2026-04-13 20:11来源:微信阅读:6

在大模型的时代,诸多由大模型驱动而产生的衍生品呈现出百花齐放的态势。

今日乘车途中,我回顾了过往参与开发的一些商业化智能助手与RAG系统,并与当前备受瞩目的OpenClaw智能体进行了对比,由此萌生了一些不甚严谨的思考。

我们以往开发的智能房产顾问、健康助手等项目,其重心多在于服务端的构建。其目标在于,依据用户的提问,借助多种获取数据信息的“手脚”(可能包括搜索引擎、数据库检索、资料库查询,或一系列其他云端方法),为用户获取有价值的信息资料,从而生成对用户最有助益的成果(可能是问题解答、房源卡片、商品推荐卡片等)。而这些答案、房源、商品等,其本质都是数据信息。我们的智能助手通过提问、澄清、检索等多种方式,最终向用户提供其所需的数据信息。究其根本,这属于更为高阶的RAG应用范畴。

我们过往的“手脚”也都部署在服务器端,其所能执行的操作范围也局限于云端,而云端操作与现实世界中的行动相比,其能力是相对有限的。

它可以在云端修改数据库,帮我调整用户昵称,或者搜索一些数据资料,但却无法帮我处理堆积在办公电脑F盘中、如同小山般的待处理文件(而这些恰恰常常是职场人士的日常痛点)……

现阶段Claw类型的智能体则是:大模型长出了“手脚”,模型作为大脑,工具作为手脚。这手脚不仅能触及云端,更能触及用户的终端设备,如电脑和手机。用户提出需求,大模型规划如何实现这一需求,并在执行过程中自行思考、决定如何运用这些“手脚”。

这些手脚是为用户服务的,通过操作手机、电脑、互联网等,帮助用户完成工作、处理事务。例如:编写代码、执行命令行指令、处理工作文档、发送邮件、打开软件、使用软件、搜集资料等等。由于部署在用户终端设备上,这些“手脚”的活动范围变得更为广阔:既可以是对用户手机、电脑等终端设备的实际操控,也可以是对云端的操作。

因此,要构建功能更全面的智能体,其“手脚”需要安装在用户的手机、电脑等终端设备上。核心大模型通过命令行窗口、微信等渠道接收用户指令,随后进行思考、规划、推理、观察、行动(发送指令),从而操作用户的手机、电脑、终端设备以及云端,实现为用户办事的动作。

RAG更侧重于:澄清问题、检索信息、给出更优的信息结果。它的“手脚”仅仅是一系列局限在云端的检索接口。

智能体则更关注:规划与执行、如何有效使用“手脚”、对动作结果的观察反思与决策、执行过程中与用户的交互、手脚功能的扩展等。因此,衍生出了一系列智能体设计模式(如规划与执行、反应式、反思式、子智能体、工具压缩、任务清单等),以及工具、模型上下文协议(MCP)、技能等概念。它的“手脚”活动范围触及终端和云端。

我认为现阶段智能体一个较有意义的落地方向是:在现有移动互联网的基础上,最大限度地减少用户与终端设备的交互次数,同时达成用户期望的理想结果。

举例来说:我之前想要租房,需要打开安居客APP、点击进入租房栏目、选择整租/合租、筛选租房位置、价格范围……进行一连串的点击操作、滑动房源列表、逐个点进点出查看、对比价格环境位置等,可能还要考虑家人的通勤情况,再切换到另一个地点重复上述一系列搜房对比操作,然后打开高德地图,将刚才收藏的N个房源逐个与自己或家人的通勤公司进行通勤时间计算……一番操作下来,一个小时就过去了。然而最适合我们的房源,却可能并不在我们筛选出的候选列表里。因为在一个小时内,我们人工浏览、点进点出查看、收藏对比等一系列操作所能覆盖的房源数量是极其有限的。

而一个好的租房助手,能够让我们只需打开APP首页,通过长按说话的方式,用一句话表达基本诉求,然后交给助手去澄清我们额外的其他关键需求点。接着,助手会理解诉求、搜索房源、对比房源、分析房源图片、分析装修与配套情况、结合地图搜索同时兼顾自己和家人的通勤、对比价格与环境等一系列自动化操作。从而快速浏览海量房源,定位到更符合我们需求的房源。

整个过程,我们只需要对助手说几句话。从用户体验来看:这减少了操作手机、思考对比筛选所耗费的人力,并从更庞大的信息源中获取了更匹配的结果。

对于各个行业的类似企业而言,以垂直领域的智能助手APP作为入口,整合自身公司业务,将是现阶段一个不错的落地选择。未来,我们或许将会看到美团智能体、淘宝智能体、58智能体、百度智能体等等。

同时,AI眼镜厂商也可以推出个性化开发平台,支持商业智能体APP集成并接入到AI眼镜这类可视化设备中。用户可以随时通过语音唤醒对应的商业智能体,以对话的形式与智能体交互,在需要人工决策的时刻,通过AI眼镜的成像功能将信息呈现在我们眼前,从而实现更加轻便、自由、随时随地的AI交互体验。