大模型驱动下对智能体的几点思考

发布时间：2026-04-13 20:11阅读：13

在大模型的时代，诸多由大模型驱动而产生的衍生品呈现出百花齐放的态势。

今日乘车途中，我回顾了过往参与开发的一些商业化智能助手与RAG系统，并与当前备受瞩目的OpenClaw智能体进行了对比，由此萌生了一些不甚严谨的思考。

我们以往开发的智能房产顾问、健康助手等项目，其重心多在于服务端的构建。其目标在于，依据用户的提问，借助多种获取数据信息的“手脚”（可能包括搜索引擎、数据库检索、资料库查询，或一系列其他云端方法），为用户获取有价值的信息资料，从而生成对用户最有助益的成果（可能是问题解答、房源卡片、商品推荐卡片等）。而这些答案、房源、商品等，其本质都是数据信息。我们的智能助手通过提问、澄清、检索等多种方式，最终向用户提供其所需的数据信息。究其根本，这属于更为高阶的RAG应用范畴。

我们过往的“手脚”也都部署在服务器端，其所能执行的操作范围也局限于云端，而云端操作与现实世界中的行动相比，其能力是相对有限的。

它可以在云端修改数据库，帮我调整用户昵称，或者搜索一些数据资料，但却无法帮我处理堆积在办公电脑F盘中、如同小山般的待处理文件（而这些恰恰常常是职场人士的日常痛点）……

现阶段Claw类型的智能体则是：大模型长出了“手脚”，模型作为大脑，工具作为手脚。这手脚不仅能触及云端，更能触及用户的终端设备，如电脑和手机。用户提出需求，大模型规划如何实现这一需求，并在执行过程中自行思考、决定如何运用这些“手脚”。

这些手脚是为用户服务的，通过操作手机、电脑、互联网等，帮助用户完成工作、处理事务。例如：编写代码、执行命令行指令、处理工作文档、发送邮件、打开软件、使用软件、搜集资料等等。由于部署在用户终端设备上，这些“手脚”的活动范围变得更为广阔：既可以是对用户手机、电脑等终端设备的实际操控，也可以是对云端的操作。

因此，要构建功能更全面的智能体，其“手脚”需要安装在用户的手机、电脑等终端设备上。核心大模型通过命令行窗口、微信等渠道接收用户指令，随后进行思考、规划、推理、观察、行动（发送指令），从而操作用户的手机、电脑、终端设备以及云端，实现为用户办事的动作。

RAG更侧重于：澄清问题、检索信息、给出更优的信息结果。它的“手脚”仅仅是一系列局限在云端的检索接口。

智能体则更关注：规划与执行、如何有效使用“手脚”、对动作结果的观察反思与决策、执行过程中与用户的交互、手脚功能的扩展等。因此，衍生出了一系列智能体设计模式（如规划与执行、反应式、反思式、子智能体、工具压缩、任务清单等），以及工具、模型上下文协议（MCP）、技能等概念。它的“手脚”活动范围触及终端和云端。

我认为现阶段智能体一个较有意义的落地方向是：在现有移动互联网的基础上，最大限度地减少用户与终端设备的交互次数，同时达成用户期望的理想结果。

举例来说：我之前想要租房，需要打开安居客APP、点击进入租房栏目、选择整租/合租、筛选租房位置、价格范围……进行一连串的点击操作、滑动房源列表、逐个点进点出查看、对比价格环境位置等，可能还要考虑家人的通勤情况，再切换到另一个地点重复上述一系列搜房对比操作，然后打开高德地图，将刚才收藏的N个房源逐个与自己或家人的通勤公司进行通勤时间计算……一番操作下来，一个小时就过去了。然而最适合我们的房源，却可能并不在我们筛选出的候选列表里。因为在一个小时内，我们人工浏览、点进点出查看、收藏对比等一系列操作所能覆盖的房源数量是极其有限的。

而一个好的租房助手，能够让我们只需打开APP首页，通过长按说话的方式，用一句话表达基本诉求，然后交给助手去澄清我们额外的其他关键需求点。接着，助手会理解诉求、搜索房源、对比房源、分析房源图片、分析装修与配套情况、结合地图搜索同时兼顾自己和家人的通勤、对比价格与环境等一系列自动化操作。从而快速浏览海量房源，定位到更符合我们需求的房源。

整个过程，我们只需要对助手说几句话。从用户体验来看：这减少了操作手机、思考对比筛选所耗费的人力，并从更庞大的信息源中获取了更匹配的结果。

对于各个行业的类似企业而言，以垂直领域的智能助手APP作为入口，整合自身公司业务，将是现阶段一个不错的落地选择。未来，我们或许将会看到美团智能体、淘宝智能体、58智能体、百度智能体等等。

同时，AI眼镜厂商也可以推出个性化开发平台，支持商业智能体APP集成并接入到AI眼镜这类可视化设备中。用户可以随时通过语音唤醒对应的商业智能体，以对话的形式与智能体交互，在需要人工决策的时刻，通过AI眼镜的成像功能将信息呈现在我们眼前，从而实现更加轻便、自由、随时随地的AI交互体验。

← 上一篇：AI挤占产能 DDR5内存天价2.8万消费级硬件全线涨价下一篇：吴中OPC人工智能产业园：高密度服务赋能企业成长 →