标签

AI主动:科幻中的现实困境

发布时间:2026-06-02 05:55来源:微信阅读:5

今晚与好友探讨新产品方向时,我们聊到了一个词:“AI主动”。

那一刻,我有种恍如隔世的感觉。

由于产品交付压力巨大,我已经很久没有深入思考未来的发展方向了。而“AI主动”这个词,曾多次被我用来迎合投资人对宏大叙事的期待。毕竟没人愿意在项目介绍中承认自己只是做了一个饮食类的小工具。(自嘲一下,别太当真,我们其实很强)

但我逐渐意识到,“AI主动”并非只是一个简单的功能名称。它更像是过去几年AI产品,特别是AI硬件产品,用来缓解焦虑的一个概念。

硬件需要它来解释:为什么要把麦克风和摄像头塞进更多地方。

软件需要它来解释:为什么要做长期记忆、上下文、工具调用和用户画像。

创业者需要它来解释:为什么我做的不是一个更会聊天的App,而是某种通往未来生活方式的入口。

这个词很好用,因为它足够宏大,也足够模糊。

但越是宏大的词,越应该拆解来看。

一个真正“主动”的AI系统,至少要完成几件事:它要感知环境,理解状态,继承长期记忆,判断用户偏好,选择行动方案,获得必要授权,并且知道什么时候不该打扰用户。

今天大多数产品,往往只完成了第一步或第二步,然后就开始宣称自己走向了第五步。

这也是我觉得“AI主动”越来越像一部科幻片的原因。

它看起来离我们很近,甚至已经出现在每一次产品发布会里;但真正落到用户生活里,又远得像一个尚未开机的电影项目。

Always-On:一个被硬件圈反复使用的美丽词汇

正如咸鱼所说(我真的是粉丝),2023年AI硬件的核心命题,是把麦克风塞在各种地方;2025年AI硬件的核心命题,是把摄像头塞在各种地方。

不管塞麦克风,还是塞摄像头,大家都不约而同地喜欢用一个词:Always-On。

永远在线。

这个词听起来很性感,像是未来生活的基础设施。但问题在于,即便模型上下文窗口并没有大到可以承载一切,即便多模态理解、长期记忆、隐私授权和低延迟推理都还没有完全跑通,Always-On这个词却已经提前沾染上了硬件圈子里那股熟悉的恶习:

我可以不用,但你不能没有。

不得不说,这句话在某种程度上确实代表了先进生产力的发展方向。

如果没有这种市场共识,智能手机可能在2018年就已经停止迭代了。很多今天看起来“理所当然”的硬件能力,最开始也都是以“暂时没什么用,但以后肯定有用”的方式存在的。

但对于一个新品类来说,Always-On不能永远停留在“以后肯定有用”。

时间久了,用户会问:你一直开着,到底想干什么?

于是,Always-On需要一个出口。

这个出口,叫AI主动。

AI主动到底是什么?

AI主动听起来特别好理解。

假设一个系统拥有足够多的环境信息,经过足够长时间的观察,那么它应该可以模拟人的决策,并提前预判人的需求。

比如它知道你在开会,就不打扰你。它知道你今天很累,就帮你减少无意义的信息。它知道你明天要出差,就提前整理行程、天气、材料和交通。它知道你可能忘了某件事,就在正确的时间提醒你。

乍一听,没有毛病。

但仔细想,这里其实存在一条技术和伦理都很难轻易跨越的鸿沟。

因为AI主动真正困难的地方,并不是让AI在用户没有开口的时候说一句话。

这件事并不难。

真正困难的是:它凭什么判断自己现在应该开口?它凭什么判断这件事对用户重要?它凭什么决定自己应该做到哪一步?它凭什么承担做错之后的后果?

很多产品谈AI主动,本质上谈的是“触发”。

但主动不是触发。

定时提醒是触发。接口回调是触发。检测到某个事件后自动发消息,也是触发。

真正的主动,是系统在需求尚未显性表达之前,识别出它和用户目标之间的关系,并在合适边界内完成介入。

这中间隔着的,不只是技术能力,还有判断、授权、责任和信任。

第一阶段:把“预设”藏起来

其实早在2023年,Coze的产品先驱(我),就已经开始做各种关于AI主动的探索。

不得不说,当时的Coze是一个非常有创新欲望的团队。虽然某些想法对于当时的模型能力而言有些生不逢时,但也确实做了很多市面上不曾存在的产品功能。其中有一些,直到今天还在这个市场上不断回响。

第一阶段的AI主动,非常朴素。

大模型本质上是一个续写机器。输入上文,猜下文。

那如果没有上文,怎么产生下文?

聪明的你很快就会想到:我们把上文藏在人们看不见的地方,不就显得像AI在主动说话了吗?

于是在开场问候里,在连续对话中,在奇怪的接口回调时,我们塞入了一些用户看不到的user message:

“请问候用户。” “请继续。” “请根据下列信息总结。” “请结合刚刚返回的结果进行回复。”

然后把这些内容在UI上隐藏。

从表面上看,这确实很像AI一直在主动说话。

但聪明的你也很快会发现,这种做法在体验上有一个巨大Bug。

如果你在过渡Prompt里隐藏的信息很少,比如只是发一句“请继续”,那么LLM的回复质量和信息密度相比此前不会有任何提升。

于是它看起来是在主动说话,但说出来的全是废话。

如果你在过渡Prompt里隐藏的信息很多,比如隐藏了一个完整的Function Call召回结果,那么就会出现另一个问题:LLM看到的信息和用户看到的信息完全不对称。

俗称:聊不到一起去。

用户还停留在上一句话,模型已经读完了后台返回的一整份材料。用户以为自己在聊天,模型以为自己在汇报。用户感受到的是“你怎么突然说这个”,模型感受到的是“我明明已经拿到了上下文”。

这种体验非常割裂。

它不是AI主动,更像是信息回来之后,有一个看不见的人主动帮你问了AI一句。

因为信息不确定,所以问题不确定。因为问题不确定,所以体验不确定。

后来一些聪明的产品经理又想到了:既然事件触发不稳定,那时间触发能不能解决问题?

于是出现了一套定时Trigger。

到了某个时间,帮你做一个固定流程,然后把结果总结给你。看起来,这也是某种程度的AI主动。

但这里同样有问题。

大部分真正需要定时完成的任务,其实并不需要智能,只需要规则。

比如会议提醒、闹钟、日程通知、账单提醒。它们不是不重要,而是不需要大模型来完成。

而那些真正需要AI发挥主观能动性的任务,往往又不是定时发生的。

所以定时任务最后最容易跑通的场景,确切来说只有两个:

行业日报,工作周报。

因为它们既需要定时完成,又需要一定程度的整理、筛选和表达。

这也是第一阶段AI主动的困境:

它解决的是“AI什么时候说话”的问题,但没有解决“AI为什么有资格说这句话”的问题。

第二阶段:Prompt不够,Context来凑

经历过第一阶段的产品经理,都会得到一个惨痛教训:

通用模型+微量Prompt,很难产生真正个性化的用户体验增量。

于是到了第二阶段,大家很容易走向另一个极端:

既然Prompt不够,那就上Context。既然信息太少,那就收集更多信息。既然模型不懂用户,那就把用户的一切都交给模型。

于是大家开始做Always-On,开始吹捧Context的重要性。

虽然暂时还不知道那么多信息具体要怎么用,但先拿到手再说。

这也是过去一两年很多AI软硬件产品非常微妙的地方:它们看起来是在服务人类,实质上经常是在服务AI。

AI需要语音,所以人要接受随身麦克风。AI需要视觉,所以人要接受随身摄像头。AI需要长期记忆,所以人要接受不断被记录。AI需要更多上下文,所以人要主动把生活整理成机器更容易理解的格式。

这不是AI Native。这是把用户变成模型的传感器外设。

很多产品没有让AI融入人的生活,反而在让人的生活适配AI的输入格式。用户不再是被服务的人,而变成了给模型持续供料的人。

这件事很荒诞。

因为技术本来应该降低人的负担,但在这个阶段,很多AI产品反而要求用户付出更多配合成本。你要授权,你要佩戴,你要录音,你要上传,你要忍受延迟,你要相信它“以后会有用”。

但即便用户真的配合了,产生了海量Context,很快又会撞到下一面墙。

在真实产品里,Context Window并没有人们想象中那么慷慨。

这里说的不只是字面上的上下文长度,而是三个东西:容量、成本和推理质量。

你不可能把所有Context都塞进去。即便塞进去,也会带来成本和延迟。即便成本和延迟都能接受,大量非结构化信息也会稀释模型的判断质量。

一天的录音、图像、位置、日程、聊天记录和操作行为,并不天然等于一个“可用的生活”。

数据多,不代表理解深。

于是聪明的你又会想到:我可以压缩Context。

不断总结,压缩文本长度。或者做成文件树和索引,需要的时候再召回。或者用长期记忆,把用户重要信息沉淀下来。

这当然是必要的。

但它依然没有完全解决AI主动最核心的问题。

因为主动的本质,是在实际关联尚未显性产生之前,预先建立关联。

而信息召回的本质,是在关联已经被定义之后,再去寻找相关信息。

这两件事方向是反的。

检索系统通常需要一个问题。有了问题,才知道召回什么。但AI主动恰恰发生在用户还没有提出问题的时候。

如果问题已经明确了,那为什么还需要主动?

举个简单例子。

我工作了一整天,AI发现我很累,于是提醒我:

“你今天辛苦了,早点休息。”

这句话主动吗?主动。

有用吗?没有。

因为它说了一句正确但廉价的废话。

真正有价值的主动,应该更像这样:

它知道我今天被客户连续追着改了三版方案;知道我明天上午有一个重要路演;知道我今晚原本约了一个不那么重要的饭局;知道材料里还有两页关键数据没有补齐;知道我最近几天睡眠不足;也知道我通常在这种状态下硬撑到凌晨,第二天表现反而更差。

于是它在晚上七点提醒我:

“今晚的饭局和明天路演目标冲突。我建议你改约,并把剩下两页材料拆成三个步骤。第一步我已经根据历史版本补了一个初稿,你确认后我再继续。”

这才开始接近主动。

但你会发现,要做到这一步,它需要的不只是更多Context。

它还需要跨应用的信息整合,需要长期偏好,需要任务优先级判断,需要行动权限,需要社交代价评估,甚至需要理解我这个人在压力下通常会做出什么坏选择。

而这些东西并不只是“上下文”。

它们是关于人的判断。

更麻烦的是,AI一旦开始替用户做判断,它就不再只是一个工具,而开始触碰用户的生活秩序。

错过一个提醒没什么。错发一个通知也没什么。但如果它帮你取消了一场饭局、推迟了一个会议、重排了一天的优先级,它就进入了一个更复杂的责任系统。

这也是为什么很多AI主动产品,最后会退回到一种非常安全、但也非常无聊的状态:

提醒你休息。提醒你喝水。提醒你今天很忙。提醒你可能有压力。提醒你关注健康。

正确,温柔,无害。

没用。

第三阶段:人不是Context的总和

前面讨论的,还是技术问题。

这些问题也许会随着模型、硬件、端侧推理、长期记忆和工具生态的发展被部分解决。

但更深的问题在于:我们对于AI主动的很多想象,建立在一个未必成立的前提上。

这个前提是:

只要系统掌握了足够多的Always-On信息,它就可以发现问题,并预测需求。

但人的需求,真的主要