读懂AI智能体：别被技术热潮裹挟

发布时间：2026-04-29 21:24阅读：15

S同学在传统制造业里上班。有一天散步时聊到AI，他直接问我：AI智能体到底是什么？我自以为对“智能体”有些了解，可一旦要用概念去解释他的问题，反而发现自己绕进了用概念讲概念的圈子。

接着他抛出的几个问题我都答不上来，也没法给出一个让他真正听懂的回答。

他又问有没有哪些智能体可以先体验一下的。我当时就卡住了：我知道不能只说Claude Code、Codex之类的名字。因为如果说了“能体验”，但又强调门槛和前提，听起来等于没说。

他对智能体的理解其实很具体：就像电影里的设定那样，能站在人的一边，为人类提供服务。

从这个小故事，我萌生了写下这篇文章的想法。我想用更直白、更朴素的方式讲清楚什么是AI智能体，不靠炫技，也让那些并不天天泡在AI信息流里的人，一看就明白。

AI每一天都在前进。新的产品、新的技术、新的概念几乎每天都冒出来，于是海量的解说视频和内容也不断涌现。

很多人会因此焦虑：看别人玩得那么high，自己却什么都没搞懂。也有人选择消极应对，觉得这阵风迟早会过去，自己不用跟着理会。

不如把节奏放稳一点：别被短视频牵着走，搞清楚智能体到底能做什么，它在整个AI演进的轨道中到底处在哪个位置。

这篇文章我会尽量“潜到水下”，带你看清智能体的本质，并顺便推荐一些能用起来的工具。

先用一个例子，直观感受一下Chatbot和Agent的差异：先不讨论知识类问题，直接让它完成一个任务：

[去get笔记里把我昨天和前天的笔记取过来，存为当天的日记]

· getnote是得到的笔记软件get笔记

· 我希望AI把我在get笔记里零散的想法用语音整理出来；我可能一天有多条，把它们合并为一篇，作为当天的日记保存到电脑文件夹里，并用年-月-日当作标题命名。

元宝的回复：

如果按手工来做，至少要走三步：

现在，你只需要用语音直接把任务交给Agent，事情就能搞定！

大模型本质上是一个会“预测文本”的模型。你输入的文字（专业点说叫提示词），会被用来预测后面最可能出现的内容。

聊天AI可以跟你“聊”，看起来什么都懂——就算它其实不懂，也可能会通过概率去猜，然后装作自己知道，这就是人们常说的"幻觉"；它通常只有嘴，没有手，只能告诉你该怎么做，未必能替你真正去做。

智能体则向前走了一步：它能够根据你的目标，把任务拆开，进而开始行动。

在这个过程中，你只需要讲清楚目标，不用操心如何一步步完成。AI智能体会自行拆解流程，并把你的目标落到实处。

tips: 和AI协作时，关键是只说目标，不要对“怎么做”进行过多指挥。要相信AI在执行层面的理解能力往往比你想象更强。

这也很像管理：你作为上级通常只需要交代“要做什么what”，至于“怎么做how”，就该交给下属发挥主观能动性。

接下来，我们一起看看智能体常说的四个关键要素：

在执行某个任务时，AI Agent会把已存储的记忆和你的要求一起交给大脑（LLM）分析。大脑再把步骤拆开，判断什么时候该调用哪些工具。Agent用工具拿到结果后，再把结果返回给大脑继续判断，直到任务完成。

用一句话概括：智能体本质上是一个调度器。它会根据大语言模型（LLM）的指令去调用工具，把事情做出来。

前段时间火起来的“小龙虾”（openclaw）同样属于智能体，它和我下面推荐的Claude Code、Codex属于同一类产品。至于小龙虾怎么用，可以参考我后面那篇文章。

我最近在研究如何用Obsidian（笔记管理软件）做个人知识管理。最开始我想把写过的日记重新集中起来，却发现它们散落在不同的平台：印象笔记、Notion、flomo、Typora、wolai，还有苹果自带的备忘录。

第二个麻烦是日记的结构各不相同。有的把一整年的日记放在同一个文档里，用日期做分隔；还有些年，我干脆用Excel表格记下来，把一年拆成365个格子。

如果想把一篇日记整理成单独的文档，并且用年月日做标题命名，让手工去做几乎不现实。

假设先处理一年：把365份日记拆出来、再新建文件、复制粘贴365次——光是想就足够把人吓退，更别说近10年的内容了。

用AI Agent大概5个小时就能搞定。因为这些工作正是AI目前最拿手的部分：你只需要让它知道三件事。

你可能会觉得怎么这么麻烦，但其实下达命令的时候，完全可以直接用语音说。哪怕表达得不够顺，也不会影响它理解。

它还会不时需要你授权。大多数时候你允许就好，不过也要记得：它有可能会做错，因此你仍需要在关键点上监督它。

你可以通过下面的截图感受一下，整个流程到底有多简单。

你也许会问：把这些陈年日记整理出来到底有什么用？答案可能是“更了解自己”。你甚至可以直接让AI回答：近三年我一直在关注什么？近三年我有哪些变化？

网络上还有很多类似的玩法，比如让智能体定时抓取新闻→存进飞书文档→再从里面提炼热门主题→写成文章→放到公众号草稿箱里。

只要各个系统提供接口，再经过你的授权，AI智能体就能代替你去把活儿干完。

说得更直白些：目前的AI智能体确实能替你在多个系统里完成操作（查看、新建、复制、粘贴等），并在不同平台之间传递信息。

比如每天晚上，我会让AI智能体去get笔记APP把当天的录音笔记抓出来，整理成日记保存。白天只要我冒出想法（闪念），就用手机在get笔记里录音，一天可能有好几条，晚上让AI统一整理。

感谢你读到这里。你应该也会有点跃跃欲试，想亲自上手试试。我知道你可能会想：是不是打开一个网址，然后用手机号码注册就能用。

如果你在国内，可以试试扣子、Trae。不过我更建议你尝试通过终端安装Claude Code，这里会有一点点入门门槛。

Codex也是另一款产品，但它需要翻墙访问外网，并且还要注册和付费Chatgpt才行。

在终端里（我用的是Mac电脑）大概会长这样：装好后输入claude，你就会看到一个像素风格的小人出现，然后就能开始给它下指令了。

我建议你用语音来交流。闪电说、秘塔回响这类语音转文本工具都免费，而且体验不错。

如果你想稍微折腾一下，别担心：半个小时内基本就能装好。就从Claude Code开始吧。也可以用得到APP里的“如何快速上手Claude Skill辅助科研提效”，里面有一步步的安装教程。

用Claude Code的一个好处是：它可以嵌入到其它工具里，做到更无缝的集成。比如下面展示的，就是知识管理软件obsidian和claude code组合后的强大效果。

目前我已经把其它笔记软件都放下了，只用obsidian来管理文档、写作。它在知识管理和输出方面确实很强。下次我再专门写一篇。

这是进阶玩法，你不想折腾也没关系，没必要因此焦虑。工具始终是为“做事”服务的；如果你想做事，比如写公众号，真正关键的是“写”，至于用什么工具，反而是次要的。

我们很容易陷入一种幻觉：看到某个工具很厉害，就觉得自己也能凭它完成一切。有了AI之后，我也能把公众号写起来。可实际上，想写早就能写，AI有没有都不影响写作这件事。

如果你不想折腾，也没问题。至少到现在，你应该已经弄明白AI Agent到底是什么了：不会被技术热潮带着跑，也不会莫名其妙地焦虑，更不会一直问“如果我的工作被AI替代怎么办”。

无论如何，请你读到最后。让我们从更高的角度回望AI的发展脉络，并想一想它未来会走向哪里。

AI Agent（中文翻译为智能体）里的agent原意是代理，也就是能够自主完成某种特定工作的个人或组织。

就目前AI的发展阶段来看，“代理”还主要落在企业自动化、虚拟助手、自动驾驶等数字办公与信息处理场景。

在未来，AI或许会像科幻电影里描述的那样，与人类一起协作、为人类服务，照顾人类的日常生活。那将是AGI（通用人工智能）的时代。

想让AI进入物理世界并与人类互动，需要大量技术进行整合：不仅要能理解文本、做推理，还要具备多种感知能力（看、听、摸）、空间理解能力，以及控制与行动能力。

而物理世界本身复杂得很，这也是AI最难跨过去的门槛。机器人学家莫拉维克在1980年代提出过一句话："对AI来说，人类觉得越容易的事（比如识别一张脸、走路、说话），它反而越难。人类觉得越难的事（比如下棋、解数学题），它却更擅长。"

AI Agent只是演进路线上的一个环节；AGI才是最终目标。我们离它还有很长的一段距离。但因为我们脑子里有完整的拼图样子，就不会被某一块拼图的炫光所迷惑。

你一定听过"多模态"。这是个听起来“不明觉厉”的词。把视角放大你就会明白：多模态其实是在让AI能感知世界（文字、图像、视频、声音等），这是一种必然的技术方向。

"智能体"也很可能只是一个过渡用语。相比过去AI只能回答问题（那时人类确实也曾惊奇与恐慌），如今它能在数字空间里主动做事。

李飞飞教授一直在研究的“空间智能”，目标是让AI理解物理空间。

2025年，全球机器人领域投资约210亿美元，这意味着资本正在大规模押注：AI要从数字世界延伸到物理世界。

多模态整合、空间智能、具身智能等这些碎片正逐步拼成更完整的画面——人机共生的超级智能时代正在成形。

让我们把日子过好，尽可能活得足够长，给自己一个机会，亲眼看到AGI到来的那一天。

← 上一篇：UCL医疗机器人与AI硕士录取喜报！下一篇：中国AI公司“逆向出海”20亿并购案被叫停：穿透式审查揭秘 →