标签

别让AI总失忆:a16z详解为何下一代模型要会“持续学习”

发布时间:2026-04-27 16:51来源:微信阅读:5

预计阅读时间:8 分钟

导读

在克里斯托弗·诺兰的经典影片《记忆碎片》里,男主因脑部受伤罹患顺行性遗忘症。他的生活每隔几分钟就像被“刷新”一次,被永远困在一个“没有过去的现在”。为了活下去,他只能把关键信息刻在皮肤上、用宝丽来照片铺满墙面,把这些当作额外加装的“外置记忆”。

顶级风投 a16z 在最新的深度长文中提醒:当下的大型语言模型(LLM)其实也遭遇了类似处境。它们在预训练阶段把海量知识固化进“参数”之中,但模型一旦上线,就几乎失去生成新长期记忆的能力。于是我们不得不为它们搭起复杂的“脚手架”:聊天记录充当短期便签,检索增强(RAG)像外接笔记本,系统提示词则好比刻在身上的纹身。

但问题在于,模型并没有把这些新增信息真正消化成自身能力。a16z 判断:如果 AI 不能在真实使用中更新其核心参数,就很难成长为真正意义上的超级智能。下面是这篇万字文章的要点拆解。

先从“上下文”(Context)说起

在主张让 AI 去“改写底层大脑”(参数化学习)之前,必须先承认:当前的上下文学习(In-context learning, ICL)确实极其有效,而且在相当长的时间里仍会是主流范式。

Transformer 的基本机制是“预测下一个 Token”。只要提供足够正确且组织良好的上下文,即便不动模型权重,它也能爆发出很强的表现力。比如开发者口碑很高的 AI 编程工具 Cursor、以及智能体框架 OpenClaw,它们之所以好用,很大程度来自对上下文与工作流的精心编排。能力虽然被封存在静态参数里,但你给它“喂”什么上下文,它就会呈现出截然不同的输出水平。

状态空间模型:给上下文打上“强化针”

当 AI 的使用场景从“一问一答”走向“自主智能体(Agent)持续执行任务”,上下文窗口开始承受巨大负载。智能体做多步推理与行动时,常常走到几十步后就会因“上下文塞满”而失序、断线,整体连贯性随之崩塌。

因此行业正全力内卷“超长上下文”。一种更前沿的思路是引入状态空间模型(SSMs)以及线性注意力的变体,相当于为模型外挂了一层几乎不必频繁清空的超大记忆缓存。

这也带来一个更根本的追问:不断把上下文做大,真会成为 AI 进化的终局吗?还是说这条路线本身就存在可触及的上限?

上下文缺了什么:文件柜谬误

设想有一个容量无限、索引完美、可以瞬间取回全世界知识的超级文件柜——这能算“学会”知识了吗?

不能,它本质仍是检索装置,因为它从未经历“压缩”的过程。

OpenAI 前首席科学家 Ilya Sutskever 曾提到,LLM 在本质上是一种压缩器。在训练中,模型把互联网巨量信息以“有损压缩”的方式收进参数里,而正是这种压缩迫使模型提炼深层规律、形成泛化能力,于是才有了举一反三。但讽刺的是,模型一旦部署,我们等于切断了让它持续变强的“压缩通道”,转而让它倚重外部检索来补齐信息。

而纯检索并不能替代真正的学习。a16z 在文中给出了两个关键论点:

①真正的创造性突破来自认知重构:例如证明“费马大定理”,数学家靠的不只是翻论文,而是把不同分支在更高维度上融合贯通。这种创造力不是简单把资料塞进提示词就能生成的。

②大量隐性知识无法被文字准确写出:不少高维模式——比如医学影像中肿瘤纹理的微妙差别,或人类说话时极细的语调起伏——都很难用 Prompt 精确描述。这类知识更适合沉淀在模型参数的潜空间(Latent Space)里,而非停留在文本表述上。

这也解释了为什么当 ChatGPT 只是机械复述“你之前提到过……”时,会显得很别扭。你期待的不是一个“复读机”(检索),而是能内化你的偏好与思维方式、提前感知你要什么的“搭档”(学习)。

持续学习(Continual Learning)的技术光谱

要让 AI 真正实现成长,并不存在唯一答案。关键分界点在于:信息“压缩”到底发生在什么位置?

浅层 - 上下文(Context):完全不改权重,靠更聪明的 Agent 框架、RAG 与提示词编排来达成适配。

中层 - 模块化(Modules):借助额外的知识模块(如适配器 Adapters)做局部压缩,让模型在特定领域更专业,同时避免对整个巨型网络进行重训。

深层 - 参数级学习(Parametric):把压缩放到模型内部,让新知识直接写入底层权重。现阶段的探索包括测试时训练(Test-time training)、元学习(Meta-learning)与自我蒸馏等方向。

持续学习的创业图景

围绕这些路线,a16z 看到一批试图攻克“AI 记忆”问题的创业团队,大致可分为几类:

编排与检索层:如 Letta, Mem0 等,主攻更精细的上下文管理与向量数据库(成熟度最高)。

局部压缩(无需重训):打造可插拔的知识模块,让通用底座快速迁移到特定任务上。

强化学习与反馈循环:把用户在业务中的纠错、任务成功与失败转化为训练信号,让模型像学徒一样在实干中积累经验。

数据驱动方法:核心在于构建高质量、结构化的学习反馈数据,使模型只需极小幅度的参数微调也能获得可观进化。

新型原生架构:最激进的押注。他们认为 Transformer 本身可能就是持续学习的掣肘,试图从底层设计天然具备连续记忆机制的新计算基座。

现实很骨感:为什么直接“动参数”这么难?

既然“持续学习”如此关键,为什么大模型不在生产环境里直接开放权重更新?因为在线修改参数,就像在高速赛车行驶中更换发动机,会带来一串高风险后果:

灾难性遗忘(Catastrophic Forgetting):模型一吸收新内容,可能反过来抹掉旧知识,甚至破坏原有底层能力结构。

难以“反向取消学习”:神经网络几乎没有精确的“减法”。一旦吞进有毒或错误信息,想像橡皮擦那样定点清除非常困难。

安全与合规的噩梦:当下 AI 安全很依赖“训练—部署”的隔离。一旦模型持续动态更新,既有安全护栏可能随时失效,“数据投毒”会变成一种潜伏且长期的攻击方式。

结语:从《记忆碎片》走向真正的经验复利

《记忆碎片》里男主的悲剧不在于他不能行动,而在于他永远无法享受到经验复利:每一次经历都只能以外部载体(照片、纹身)留存,他可以检索,却无法把新信息压缩为真正属于自己的能力。

今天的 AI 同样受制于类似边界。我们不断把“文件柜”(长上下文)做得更大,但再大的文件柜,依旧只是文件柜。破局更可能来自分层体系:上下文学习作为第一层快速适应,模块化机制负责专业领域的定制化,而面对复杂逻辑发现与隐性知识,模型最终仍需要在参数内部完成真正的“经验压缩”。

只有当模型能像预训练阶段那样,在部署之后依旧持续进行抽象、压缩与学习,AI 才可能真正摆脱失忆魔咒,从博学的“搜索引擎”,进化为具备生命力与成长性的“智能体”。