别让AI总失忆：a16z详解为何下一代模型要会“持续学习”

发布时间：2026-04-27 16:51阅读：17

预计阅读时间：8 分钟

导读

在克里斯托弗·诺兰的经典影片《记忆碎片》里，男主因脑部受伤罹患顺行性遗忘症。他的生活每隔几分钟就像被“刷新”一次，被永远困在一个“没有过去的现在”。为了活下去，他只能把关键信息刻在皮肤上、用宝丽来照片铺满墙面，把这些当作额外加装的“外置记忆”。

顶级风投 a16z 在最新的深度长文中提醒：当下的大型语言模型（LLM）其实也遭遇了类似处境。它们在预训练阶段把海量知识固化进“参数”之中，但模型一旦上线，就几乎失去生成新长期记忆的能力。于是我们不得不为它们搭起复杂的“脚手架”：聊天记录充当短期便签，检索增强（RAG）像外接笔记本，系统提示词则好比刻在身上的纹身。

但问题在于，模型并没有把这些新增信息真正消化成自身能力。a16z 判断：如果 AI 不能在真实使用中更新其核心参数，就很难成长为真正意义上的超级智能。下面是这篇万字文章的要点拆解。

一

先从“上下文”（Context）说起

在主张让 AI 去“改写底层大脑”（参数化学习）之前，必须先承认：当前的上下文学习（In-context learning, ICL）确实极其有效，而且在相当长的时间里仍会是主流范式。

Transformer 的基本机制是“预测下一个 Token”。只要提供足够正确且组织良好的上下文，即便不动模型权重，它也能爆发出很强的表现力。比如开发者口碑很高的 AI 编程工具 Cursor、以及智能体框架 OpenClaw，它们之所以好用，很大程度来自对上下文与工作流的精心编排。能力虽然被封存在静态参数里，但你给它“喂”什么上下文，它就会呈现出截然不同的输出水平。

二

状态空间模型：给上下文打上“强化针”

当 AI 的使用场景从“一问一答”走向“自主智能体（Agent）持续执行任务”，上下文窗口开始承受巨大负载。智能体做多步推理与行动时，常常走到几十步后就会因“上下文塞满”而失序、断线，整体连贯性随之崩塌。

因此行业正全力内卷“超长上下文”。一种更前沿的思路是引入状态空间模型（SSMs）以及线性注意力的变体，相当于为模型外挂了一层几乎不必频繁清空的超大记忆缓存。

这也带来一个更根本的追问：不断把上下文做大，真会成为 AI 进化的终局吗？还是说这条路线本身就存在可触及的上限？

三

上下文缺了什么：文件柜谬误

设想有一个容量无限、索引完美、可以瞬间取回全世界知识的超级文件柜——这能算“学会”知识了吗？

不能，它本质仍是检索装置，因为它从未经历“压缩”的过程。

OpenAI 前首席科学家 Ilya Sutskever 曾提到，LLM 在本质上是一种压缩器。在训练中，模型把互联网巨量信息以“有损压缩”的方式收进参数里，而正是这种压缩迫使模型提炼深层规律、形成泛化能力，于是才有了举一反三。但讽刺的是，模型一旦部署，我们等于切断了让它持续变强的“压缩通道”，转而让它倚重外部检索来补齐信息。

而纯检索并不能替代真正的学习。a16z 在文中给出了两个关键论点：

①真正的创造性突破来自认知重构：例如证明“费马大定理”，数学家靠的不只是翻论文，而是把不同分支在更高维度上融合贯通。这种创造力不是简单把资料塞进提示词就能生成的。

②大量隐性知识无法被文字准确写出：不少高维模式——比如医学影像中肿瘤纹理的微妙差别，或人类说话时极细的语调起伏——都很难用 Prompt 精确描述。这类知识更适合沉淀在模型参数的潜空间（Latent Space）里，而非停留在文本表述上。

这也解释了为什么当 ChatGPT 只是机械复述“你之前提到过……”时，会显得很别扭。你期待的不是一个“复读机”（检索），而是能内化你的偏好与思维方式、提前感知你要什么的“搭档”（学习）。

四

持续学习（Continual Learning）的技术光谱

要让 AI 真正实现成长，并不存在唯一答案。关键分界点在于：信息“压缩”到底发生在什么位置？

浅层 - 上下文（Context）：完全不改权重，靠更聪明的 Agent 框架、RAG 与提示词编排来达成适配。

中层 - 模块化（Modules）：借助额外的知识模块（如适配器 Adapters）做局部压缩，让模型在特定领域更专业，同时避免对整个巨型网络进行重训。

深层 - 参数级学习（Parametric）：把压缩放到模型内部，让新知识直接写入底层权重。现阶段的探索包括测试时训练（Test-time training）、元学习（Meta-learning）与自我蒸馏等方向。

五

持续学习的创业图景

围绕这些路线，a16z 看到一批试图攻克“AI 记忆”问题的创业团队，大致可分为几类：

编排与检索层：如 Letta, Mem0 等，主攻更精细的上下文管理与向量数据库（成熟度最高）。

局部压缩（无需重训）：打造可插拔的知识模块，让通用底座快速迁移到特定任务上。

强化学习与反馈循环：把用户在业务中的纠错、任务成功与失败转化为训练信号，让模型像学徒一样在实干中积累经验。

数据驱动方法：核心在于构建高质量、结构化的学习反馈数据，使模型只需极小幅度的参数微调也能获得可观进化。

新型原生架构：最激进的押注。他们认为 Transformer 本身可能就是持续学习的掣肘，试图从底层设计天然具备连续记忆机制的新计算基座。

六

现实很骨感：为什么直接“动参数”这么难？

既然“持续学习”如此关键，为什么大模型不在生产环境里直接开放权重更新？因为在线修改参数，就像在高速赛车行驶中更换发动机，会带来一串高风险后果：

灾难性遗忘（Catastrophic Forgetting）：模型一吸收新内容，可能反过来抹掉旧知识，甚至破坏原有底层能力结构。

难以“反向取消学习”：神经网络几乎没有精确的“减法”。一旦吞进有毒或错误信息，想像橡皮擦那样定点清除非常困难。

安全与合规的噩梦：当下 AI 安全很依赖“训练—部署”的隔离。一旦模型持续动态更新，既有安全护栏可能随时失效，“数据投毒”会变成一种潜伏且长期的攻击方式。

七

结语：从《记忆碎片》走向真正的经验复利

《记忆碎片》里男主的悲剧不在于他不能行动，而在于他永远无法享受到经验复利：每一次经历都只能以外部载体（照片、纹身）留存，他可以检索，却无法把新信息压缩为真正属于自己的能力。

今天的 AI 同样受制于类似边界。我们不断把“文件柜”（长上下文）做得更大，但再大的文件柜，依旧只是文件柜。破局更可能来自分层体系：上下文学习作为第一层快速适应，模块化机制负责专业领域的定制化，而面对复杂逻辑发现与隐性知识，模型最终仍需要在参数内部完成真正的“经验压缩”。

只有当模型能像预训练阶段那样，在部署之后依旧持续进行抽象、压缩与学习，AI 才可能真正摆脱失忆魔咒，从博学的“搜索引擎”，进化为具备生命力与成长性的“智能体”。

← 上一篇：聚焦AI成果权属与合规风险的线上培训顺利举行下一篇：AI一键生成搀扶舞特效视频 →