AI主动：科幻中的现实困境

发布时间：2026-06-02 05:55阅读：15

今晚与好友探讨新产品方向时，我们聊到了一个词：“AI主动”。

那一刻，我有种恍如隔世的感觉。

由于产品交付压力巨大，我已经很久没有深入思考未来的发展方向了。而“AI主动”这个词，曾多次被我用来迎合投资人对宏大叙事的期待。毕竟没人愿意在项目介绍中承认自己只是做了一个饮食类的小工具。（自嘲一下，别太当真，我们其实很强）

但我逐渐意识到，“AI主动”并非只是一个简单的功能名称。它更像是过去几年AI产品，特别是AI硬件产品，用来缓解焦虑的一个概念。

硬件需要它来解释：为什么要把麦克风和摄像头塞进更多地方。

软件需要它来解释：为什么要做长期记忆、上下文、工具调用和用户画像。

创业者需要它来解释：为什么我做的不是一个更会聊天的App，而是某种通往未来生活方式的入口。

这个词很好用，因为它足够宏大，也足够模糊。

但越是宏大的词，越应该拆解来看。

一个真正“主动”的AI系统，至少要完成几件事：它要感知环境，理解状态，继承长期记忆，判断用户偏好，选择行动方案，获得必要授权，并且知道什么时候不该打扰用户。

今天大多数产品，往往只完成了第一步或第二步，然后就开始宣称自己走向了第五步。

这也是我觉得“AI主动”越来越像一部科幻片的原因。

它看起来离我们很近，甚至已经出现在每一次产品发布会里；但真正落到用户生活里，又远得像一个尚未开机的电影项目。

Always-On：一个被硬件圈反复使用的美丽词汇

正如咸鱼所说（我真的是粉丝），2023年AI硬件的核心命题，是把麦克风塞在各种地方；2025年AI硬件的核心命题，是把摄像头塞在各种地方。

不管塞麦克风，还是塞摄像头，大家都不约而同地喜欢用一个词：Always-On。

永远在线。

这个词听起来很性感，像是未来生活的基础设施。但问题在于，即便模型上下文窗口并没有大到可以承载一切，即便多模态理解、长期记忆、隐私授权和低延迟推理都还没有完全跑通，Always-On这个词却已经提前沾染上了硬件圈子里那股熟悉的恶习：

我可以不用，但你不能没有。

不得不说，这句话在某种程度上确实代表了先进生产力的发展方向。

如果没有这种市场共识，智能手机可能在2018年就已经停止迭代了。很多今天看起来“理所当然”的硬件能力，最开始也都是以“暂时没什么用，但以后肯定有用”的方式存在的。

但对于一个新品类来说，Always-On不能永远停留在“以后肯定有用”。

时间久了，用户会问：你一直开着，到底想干什么？

于是，Always-On需要一个出口。

这个出口，叫AI主动。

AI主动到底是什么？

AI主动听起来特别好理解。

假设一个系统拥有足够多的环境信息，经过足够长时间的观察，那么它应该可以模拟人的决策，并提前预判人的需求。

比如它知道你在开会，就不打扰你。它知道你今天很累，就帮你减少无意义的信息。它知道你明天要出差，就提前整理行程、天气、材料和交通。它知道你可能忘了某件事，就在正确的时间提醒你。

乍一听，没有毛病。

但仔细想，这里其实存在一条技术和伦理都很难轻易跨越的鸿沟。

因为AI主动真正困难的地方，并不是让AI在用户没有开口的时候说一句话。

这件事并不难。

真正困难的是：它凭什么判断自己现在应该开口？它凭什么判断这件事对用户重要？它凭什么决定自己应该做到哪一步？它凭什么承担做错之后的后果？

很多产品谈AI主动，本质上谈的是“触发”。

但主动不是触发。

定时提醒是触发。接口回调是触发。检测到某个事件后自动发消息，也是触发。

真正的主动，是系统在需求尚未显性表达之前，识别出它和用户目标之间的关系，并在合适边界内完成介入。

这中间隔着的，不只是技术能力，还有判断、授权、责任和信任。

第一阶段：把“预设”藏起来

其实早在2023年，Coze的产品先驱（我），就已经开始做各种关于AI主动的探索。

不得不说，当时的Coze是一个非常有创新欲望的团队。虽然某些想法对于当时的模型能力而言有些生不逢时，但也确实做了很多市面上不曾存在的产品功能。其中有一些，直到今天还在这个市场上不断回响。

第一阶段的AI主动，非常朴素。

大模型本质上是一个续写机器。输入上文，猜下文。

那如果没有上文，怎么产生下文？

聪明的你很快就会想到：我们把上文藏在人们看不见的地方，不就显得像AI在主动说话了吗？

于是在开场问候里，在连续对话中，在奇怪的接口回调时，我们塞入了一些用户看不到的user message：

“请问候用户。” “请继续。” “请根据下列信息总结。” “请结合刚刚返回的结果进行回复。”

然后把这些内容在UI上隐藏。

从表面上看，这确实很像AI一直在主动说话。

但聪明的你也很快会发现，这种做法在体验上有一个巨大Bug。

如果你在过渡Prompt里隐藏的信息很少，比如只是发一句“请继续”，那么LLM的回复质量和信息密度相比此前不会有任何提升。

于是它看起来是在主动说话，但说出来的全是废话。

如果你在过渡Prompt里隐藏的信息很多，比如隐藏了一个完整的Function Call召回结果，那么就会出现另一个问题：LLM看到的信息和用户看到的信息完全不对称。

俗称：聊不到一起去。

用户还停留在上一句话，模型已经读完了后台返回的一整份材料。用户以为自己在聊天，模型以为自己在汇报。用户感受到的是“你怎么突然说这个”，模型感受到的是“我明明已经拿到了上下文”。

这种体验非常割裂。

它不是AI主动，更像是信息回来之后，有一个看不见的人主动帮你问了AI一句。

因为信息不确定，所以问题不确定。因为问题不确定，所以体验不确定。

后来一些聪明的产品经理又想到了：既然事件触发不稳定，那时间触发能不能解决问题？

于是出现了一套定时Trigger。

到了某个时间，帮你做一个固定流程，然后把结果总结给你。看起来，这也是某种程度的AI主动。

但这里同样有问题。

大部分真正需要定时完成的任务，其实并不需要智能，只需要规则。

比如会议提醒、闹钟、日程通知、账单提醒。它们不是不重要，而是不需要大模型来完成。

而那些真正需要AI发挥主观能动性的任务，往往又不是定时发生的。

所以定时任务最后最容易跑通的场景，确切来说只有两个：

行业日报，工作周报。

因为它们既需要定时完成，又需要一定程度的整理、筛选和表达。

这也是第一阶段AI主动的困境：

它解决的是“AI什么时候说话”的问题，但没有解决“AI为什么有资格说这句话”的问题。

第二阶段：Prompt不够，Context来凑

经历过第一阶段的产品经理，都会得到一个惨痛教训：

通用模型+微量Prompt，很难产生真正个性化的用户体验增量。

于是到了第二阶段，大家很容易走向另一个极端：

既然Prompt不够，那就上Context。既然信息太少，那就收集更多信息。既然模型不懂用户，那就把用户的一切都交给模型。

于是大家开始做Always-On，开始吹捧Context的重要性。

虽然暂时还不知道那么多信息具体要怎么用，但先拿到手再说。

这也是过去一两年很多AI软硬件产品非常微妙的地方：它们看起来是在服务人类，实质上经常是在服务AI。

AI需要语音，所以人要接受随身麦克风。AI需要视觉，所以人要接受随身摄像头。AI需要长期记忆，所以人要接受不断被记录。AI需要更多上下文，所以人要主动把生活整理成机器更容易理解的格式。

这不是AI Native。这是把用户变成模型的传感器外设。

很多产品没有让AI融入人的生活，反而在让人的生活适配AI的输入格式。用户不再是被服务的人，而变成了给模型持续供料的人。

这件事很荒诞。

因为技术本来应该降低人的负担，但在这个阶段，很多AI产品反而要求用户付出更多配合成本。你要授权，你要佩戴，你要录音，你要上传，你要忍受延迟，你要相信它“以后会有用”。

但即便用户真的配合了，产生了海量Context，很快又会撞到下一面墙。

在真实产品里，Context Window并没有人们想象中那么慷慨。

这里说的不只是字面上的上下文长度，而是三个东西：容量、成本和推理质量。

你不可能把所有Context都塞进去。即便塞进去，也会带来成本和延迟。即便成本和延迟都能接受，大量非结构化信息也会稀释模型的判断质量。

一天的录音、图像、位置、日程、聊天记录和操作行为，并不天然等于一个“可用的生活”。

数据多，不代表理解深。

于是聪明的你又会想到：我可以压缩Context。

不断总结，压缩文本长度。或者做成文件树和索引，需要的时候再召回。或者用长期记忆，把用户重要信息沉淀下来。

这当然是必要的。

但它依然没有完全解决AI主动最核心的问题。

因为主动的本质，是在实际关联尚未显性产生之前，预先建立关联。

而信息召回的本质，是在关联已经被定义之后，再去寻找相关信息。

这两件事方向是反的。

检索系统通常需要一个问题。有了问题，才知道召回什么。但AI主动恰恰发生在用户还没有提出问题的时候。

如果问题已经明确了，那为什么还需要主动？

举个简单例子。

我工作了一整天，AI发现我很累，于是提醒我：

“你今天辛苦了，早点休息。”

这句话主动吗？主动。

有用吗？没有。

因为它说了一句正确但廉价的废话。

真正有价值的主动，应该更像这样：

它知道我今天被客户连续追着改了三版方案；知道我明天上午有一个重要路演；知道我今晚原本约了一个不那么重要的饭局；知道材料里还有两页关键数据没有补齐；知道我最近几天睡眠不足；也知道我通常在这种状态下硬撑到凌晨，第二天表现反而更差。

于是它在晚上七点提醒我：

“今晚的饭局和明天路演目标冲突。我建议你改约，并把剩下两页材料拆成三个步骤。第一步我已经根据历史版本补了一个初稿，你确认后我再继续。”

这才开始接近主动。

但你会发现，要做到这一步，它需要的不只是更多Context。

它还需要跨应用的信息整合，需要长期偏好，需要任务优先级判断，需要行动权限，需要社交代价评估，甚至需要理解我这个人在压力下通常会做出什么坏选择。

而这些东西并不只是“上下文”。

它们是关于人的判断。

更麻烦的是，AI一旦开始替用户做判断，它就不再只是一个工具，而开始触碰用户的生活秩序。

错过一个提醒没什么。错发一个通知也没什么。但如果它帮你取消了一场饭局、推迟了一个会议、重排了一天的优先级，它就进入了一个更复杂的责任系统。

这也是为什么很多AI主动产品，最后会退回到一种非常安全、但也非常无聊的状态：

提醒你休息。提醒你喝水。提醒你今天很忙。提醒你可能有压力。提醒你关注健康。

正确，温柔，无害。

没用。

第三阶段：人不是Context的总和

前面讨论的，还是技术问题。

这些问题也许会随着模型、硬件、端侧推理、长期记忆和工具生态的发展被部分解决。

但更深的问题在于：我们对于AI主动的很多想象，建立在一个未必成立的前提上。

这个前提是：

只要系统掌握了足够多的Always-On信息，它就可以发现问题，并预测需求。

但人的需求，真的主要

← 上一篇：文旅生死局：无剧情难撑百日，AI 短剧成破局关键下一篇：AI 融入生命科学核心：CSHL 第90届研讨会揭示的七大趋势 →