读懂AI智能体:别被技术热潮裹挟
S同学在传统制造业里上班。有一天散步时聊到AI,他直接问我:AI智能体到底是什么?我自以为对“智能体”有些了解,可一旦要用概念去解释他的问题,反而发现自己绕进了用概念讲概念的圈子。
接着他抛出的几个问题我都答不上来,也没法给出一个让他真正听懂的回答。
他又问有没有哪些智能体可以先体验一下的。我当时就卡住了:我知道不能只说Claude Code、Codex之类的名字。因为如果说了“能体验”,但又强调门槛和前提,听起来等于没说。
他对智能体的理解其实很具体:就像电影里的设定那样,能站在人的一边,为人类提供服务。
从这个小故事,我萌生了写下这篇文章的想法。我想用更直白、更朴素的方式讲清楚什么是AI智能体,不靠炫技,也让那些并不天天泡在AI信息流里的人,一看就明白。
AI每一天都在前进。新的产品、新的技术、新的概念几乎每天都冒出来,于是海量的解说视频和内容也不断涌现。
很多人会因此焦虑:看别人玩得那么high,自己却什么都没搞懂。也有人选择消极应对,觉得这阵风迟早会过去,自己不用跟着理会。
不如把节奏放稳一点:别被短视频牵着走,搞清楚智能体到底能做什么,它在整个AI演进的轨道中到底处在哪个位置。
这篇文章我会尽量“潜到水下”,带你看清智能体的本质,并顺便推荐一些能用起来的工具。
先用一个例子,直观感受一下Chatbot和Agent的差异:先不讨论知识类问题,直接让它完成一个任务:
[去get笔记里把我昨天和前天的笔记取过来,存为当天的日记]
· getnote是得到的笔记软件get笔记
· 我希望AI把我在get笔记里零散的想法用语音整理出来;我可能一天有多条,把它们合并为一篇,作为当天的日记保存到电脑文件夹里,并用年-月-日当作标题命名。
元宝的回复:
如果按手工来做,至少要走三步:
现在,你只需要用语音直接把任务交给Agent,事情就能搞定!
大模型本质上是一个会“预测文本”的模型。你输入的文字(专业点说叫提示词),会被用来预测后面最可能出现的内容。
聊天AI可以跟你“聊”,看起来什么都懂——就算它其实不懂,也可能会通过概率去猜,然后装作自己知道,这就是人们常说的"幻觉";它通常只有嘴,没有手,只能告诉你该怎么做,未必能替你真正去做。
智能体则向前走了一步:它能够根据你的目标,把任务拆开,进而开始行动。
在这个过程中,你只需要讲清楚目标,不用操心如何一步步完成。AI智能体会自行拆解流程,并把你的目标落到实处。
tips: 和AI协作时,关键是只说目标,不要对“怎么做”进行过多指挥。要相信AI在执行层面的理解能力往往比你想象更强。
这也很像管理:你作为上级通常只需要交代“要做什么what”,至于“怎么做how”,就该交给下属发挥主观能动性。
接下来,我们一起看看智能体常说的四个关键要素:
在执行某个任务时,AI Agent会把已存储的记忆和你的要求一起交给大脑(LLM)分析。大脑再把步骤拆开,判断什么时候该调用哪些工具。Agent用工具拿到结果后,再把结果返回给大脑继续判断,直到任务完成。
用一句话概括:智能体本质上是一个调度器。它会根据大语言模型(LLM)的指令去调用工具,把事情做出来。
前段时间火起来的“小龙虾”(openclaw)同样属于智能体,它和我下面推荐的Claude Code、Codex属于同一类产品。至于小龙虾怎么用,可以参考我后面那篇文章。
我最近在研究如何用Obsidian(笔记管理软件)做个人知识管理。最开始我想把写过的日记重新集中起来,却发现它们散落在不同的平台:印象笔记、Notion、flomo、Typora、wolai,还有苹果自带的备忘录。
第二个麻烦是日记的结构各不相同。有的把一整年的日记放在同一个文档里,用日期做分隔;还有些年,我干脆用Excel表格记下来,把一年拆成365个格子。
如果想把一篇日记整理成单独的文档,并且用年月日做标题命名,让手工去做几乎不现实。
假设先处理一年:把365份日记拆出来、再新建文件、复制粘贴365次——光是想就足够把人吓退,更别说近10年的内容了。
用AI Agent大概5个小时就能搞定。因为这些工作正是AI目前最拿手的部分:你只需要让它知道三件事。
你可能会觉得怎么这么麻烦,但其实下达命令的时候,完全可以直接用语音说。哪怕表达得不够顺,也不会影响它理解。
它还会不时需要你授权。大多数时候你允许就好,不过也要记得:它有可能会做错,因此你仍需要在关键点上监督它。
你可以通过下面的截图感受一下,整个流程到底有多简单。
你也许会问:把这些陈年日记整理出来到底有什么用?答案可能是“更了解自己”。你甚至可以直接让AI回答:近三年我一直在关注什么?近三年我有哪些变化?
网络上还有很多类似的玩法,比如让智能体定时抓取新闻→存进飞书文档→再从里面提炼热门主题→写成文章→放到公众号草稿箱里。
只要各个系统提供接口,再经过你的授权,AI智能体就能代替你去把活儿干完。
说得更直白些:目前的AI智能体确实能替你在多个系统里完成操作(查看、新建、复制、粘贴等),并在不同平台之间传递信息。
比如每天晚上,我会让AI智能体去get笔记APP把当天的录音笔记抓出来,整理成日记保存。白天只要我冒出想法(闪念),就用手机在get笔记里录音,一天可能有好几条,晚上让AI统一整理。
感谢你读到这里。你应该也会有点跃跃欲试,想亲自上手试试。我知道你可能会想:是不是打开一个网址,然后用手机号码注册就能用。
如果你在国内,可以试试扣子、Trae。不过我更建议你尝试通过终端安装Claude Code,这里会有一点点入门门槛。
Codex也是另一款产品,但它需要翻墙访问外网,并且还要注册和付费Chatgpt才行。
在终端里(我用的是Mac电脑)大概会长这样:装好后输入claude,你就会看到一个像素风格的小人出现,然后就能开始给它下指令了。
我建议你用语音来交流。闪电说、秘塔回响这类语音转文本工具都免费,而且体验不错。
如果你想稍微折腾一下,别担心:半个小时内基本就能装好。就从Claude Code开始吧。也可以用得到APP里的“如何快速上手Claude Skill辅助科研提效”,里面有一步步的安装教程。
用Claude Code的一个好处是:它可以嵌入到其它工具里,做到更无缝的集成。比如下面展示的,就是知识管理软件obsidian和claude code组合后的强大效果。
目前我已经把其它笔记软件都放下了,只用obsidian来管理文档、写作。它在知识管理和输出方面确实很强。下次我再专门写一篇。
这是进阶玩法,你不想折腾也没关系,没必要因此焦虑。工具始终是为“做事”服务的;如果你想做事,比如写公众号,真正关键的是“写”,至于用什么工具,反而是次要的。
我们很容易陷入一种幻觉:看到某个工具很厉害,就觉得自己也能凭它完成一切。有了AI之后,我也能把公众号写起来。可实际上,想写早就能写,AI有没有都不影响写作这件事。
如果你不想折腾,也没问题。至少到现在,你应该已经弄明白AI Agent到底是什么了:不会被技术热潮带着跑,也不会莫名其妙地焦虑,更不会一直问“如果我的工作被AI替代怎么办”。
无论如何,请你读到最后。让我们从更高的角度回望AI的发展脉络,并想一想它未来会走向哪里。
AI Agent(中文翻译为智能体)里的agent原意是代理,也就是能够自主完成某种特定工作的个人或组织。
就目前AI的发展阶段来看,“代理”还主要落在企业自动化、虚拟助手、自动驾驶等数字办公与信息处理场景。
在未来,AI或许会像科幻电影里描述的那样,与人类一起协作、为人类服务,照顾人类的日常生活。那将是AGI(通用人工智能)的时代。
想让AI进入物理世界并与人类互动,需要大量技术进行整合:不仅要能理解文本、做推理,还要具备多种感知能力(看、听、摸)、空间理解能力,以及控制与行动能力。
而物理世界本身复杂得很,这也是AI最难跨过去的门槛。机器人学家莫拉维克在1980年代提出过一句话:"对AI来说,人类觉得越容易的事(比如识别一张脸、走路、说话),它反而越难。人类觉得越难的事(比如下棋、解数学题),它却更擅长。"
AI Agent只是演进路线上的一个环节;AGI才是最终目标。我们离它还有很长的一段距离。但因为我们脑子里有完整的拼图样子,就不会被某一块拼图的炫光所迷惑。
你一定听过"多模态"。这是个听起来“不明觉厉”的词。把视角放大你就会明白:多模态其实是在让AI能感知世界(文字、图像、视频、声音等),这是一种必然的技术方向。
"智能体"也很可能只是一个过渡用语。相比过去AI只能回答问题(那时人类确实也曾惊奇与恐慌),如今它能在数字空间里主动做事。
李飞飞教授一直在研究的“空间智能”,目标是让AI理解物理空间。
2025年,全球机器人领域投资约210亿美元,这意味着资本正在大规模押注:AI要从数字世界延伸到物理世界。
多模态整合、空间智能、具身智能等这些碎片正逐步拼成更完整的画面——人机共生的超级智能时代正在成形。
让我们把日子过好,尽可能活得足够长,给自己一个机会,亲眼看到AGI到来的那一天。