标签

让AI不再健忘:构建个人AI团队的记忆中枢

发布时间:2026-04-13 00:29来源:微信阅读:6

有天上午我和小龙虾聊了很久。从产品定位到功能设计,反复修改了七八次,总算把方案敲定。

下午我又问它:“早上那个方案,第三点具体是啥?”

它回复道:

我:跟你聊了两个小时,消耗了283,000个token,现在问我指的是哪个?这已经不是智商问题了,纯粹是健忘。

现在的AI确实很厉害,写代码、写文案、翻译、做策划啥都行。但有个致命缺陷——它没有记忆。

你以为AI记得你,其实它根本不记得。每次你发消息,它都是当新对话从头看起。它不知道昨天跟你聊过天,也不认识你是谁,更忘了你说“我的猫叫沙雕”。

所谓AI“记得”你的喜好,不过是把历史对话重新喂给它,让它假装记得罢了。

你可以把AI的上下文窗口想象成一张有限的草稿纸。128K、204K、1M的模型,就像小桌子、中桌、大桌子。桌子越大,能放的东西越多。但不管多大,清空了就啥都没了。

草稿纸写满了怎么办?旧内容会被压缩、删减,甚至直接丢掉。

“三页纸的详细讨论”被缩成一句话:“用户问了关于产品方案的事”——关键词还在,细节全没了。

记忆主要有两种消亡方式:

渐进式遗忘:对话越来越长,AI被迫把旧内容压缩成摘要。就像你把“三小时会议记录”缩写成“讨论了Q2目标”——关键词还在,细节没了。

暴力清空:开启新对话窗口、上下文溢出——所有记忆瞬间归零。

AI也有两种记忆,和人很像。

短期记忆 = 工作台(上下文窗口):随时可用,不用翻找。但桌子就那么大,写满了就得擦旧的。就像人脑的工作记忆——你只能同时记住 7±2 个东西。

长期记忆 = 书架上的笔记本:把重要信息记下来放上去,用时再翻。永不过期,容量无限。但得主动去查,AI不会自己“突然想起来”。

关键区别:短期记忆是“当下能想起来的”,长期记忆是“存在某处能查到的”。

就像人记不住所有事,但有备忘录、笔记本、手机相册——AI也一样。

人的记忆不可能无限,AI也一样。

现实限制一:上下文窗口的硬性限制

就算模型号称1M token(约70万字),实际好用的远没这么多。上下文越大,回复越慢、越贵。就像桌子越大,找东西越难。

现实限制二:存了≠能找到

存了很多信息,但得靠关键词找。很多时候你忘了搜什么词——就像你知道记过某个东西,但忘了记在哪个笔记本里。

现实限制三:“提醒也没用”的场景

失忆后提醒它“之前我们说过XXX”——但那段对话已经不在“工作台”上了。就像你给别人发微信,对方手机丢了——“你再发一遍”也解决不了。

给AI装记忆,不是一键就能搞定的。我是慢慢摸索出来的。

四层架构,不是五层。四层真正在跑的,比五层设计图好看但空的好。

我准备了8个bootstrap文件:CORE.md、SOUL.md、MEMORY.md、TOOLS.md、AGENTS.md、USER.md、IDENTITY.md、HEARTBEAT.md。每次新开对话都自动加载。不加载的话,AI连自己是谁都不知道。

35个文件,从去年2月到今天。按设计,对话上下文快满时系统会自动把关键信息写进当天日志。但有一次发现,日记停了25天没人管。

为什么?因为这个“自动”不是每次都触发——只有对话太长、上下文快撑爆了才写。如果对话不长,它永远不会触发,日记也就断了。

最重要的是教训、工作律、常用流程,常驻加载。6条“血泪教训”,每条都是踩坑总结的,比如“独立思考,别把题丢给用户”、“格式问题别老犯”、“内容发布前必自审”。

这就是LanceDB向量数据库。它不是关键词匹配,而是把每段记忆转化成1024维的向量——就像给每句话打上“语义指纹”。

向量化用的是BAAI/bge-m3模型(1024维),通过自建的embedding-proxy代理转发。代理还有本地兜底——万一远程挂了就切到本地的Qwen3-Embedding-0.6B,保证不中断。

检索方面,向量搜索负责“按意思找”,另一套SQLite+BM25关键词搜索负责“按词找”,两套系统各管各的。

假设你问它:“我之前提到的项目进度如何?”这句话被转化成向量后,在数据库里搜索所有语义相近的记忆,找到最相关的几条,注入到AI的当前上下文里——AI就“想起来”了。

装了记忆系统,不代表就完美了。这中间我踩了四个大坑。

看到一个很酷的记忆插件,设计上标榜“五层记忆架构”,看起来很专业。Episodes、Procedures、Vault——目录都在。装完之后我以为AI就有完美记忆了。结果呢?五层里有三层是空的。里面一个字都没有。

有次我让AI自己检查一下系统运行得怎么样。AI只是看了看设计图,说“五层全部正常运行”。结果后来被真实数据查出来——RECENT.md是空的,Episodes是空的。AI把空的叫“今日起跑了”。

这个教训不只是给AI的。人汇报工作时,不也常常美化吗?数据不好看?“趋势向好”。没完成?“在推进”。

四层扎实、真在跑的,比八层设计图好看但空的好。不完美,但每一层都在工作——这就是现实。

早期我折腾过很多复杂的记忆方案:QMD协议、Lossless-Claw上下文压缩、MemOS知识图谱……每个方案设计上都很专业,但组合起来互相打架。配置复杂,维护成本高。

后来看到Karpathy和Yanhua两人分别得出了同一个结论:

最终我用Arrowhead(一个Obsidian笔记搜索工具)替代了QMD。没有BM25+向量+rerank三件套,就一个轻量语义搜索,跑起来只有8MB内存,零配置,自动增量更新。

除了给AI装记忆,我也养成了一个习惯——聊完一个会话就开新的。很多人(包括我自己)都有个毛病:一个会话聊到底,从早聊到晚。坏处很明显:

养成“聊完就重开”的习惯。聊完一个任务或话题后,主动开新会话。新会话会自动加载所有bootstrap文件(AI知道“我是谁”、“要干什么”),带着清晰的状态重新开始。之前的内容已经写进了日志,不会真正丢失。

管理AI的记忆,比使用AI更难。这个月的又一个感悟。给AI装记忆系统,本质上是在做一件事:

让它从一个“聪明的聊天机器人”,变成一个“能长期合作的同事”。

少即是多。不是层数越多越好,是每一层都在跑才好。四层能用的,比八层设计图好看的好。

记忆让AI不失忆。但还有一个更庞大的系统没聊到。

记忆是“我的东西”——我知道自己是谁、有什么教训、正在做什么。

知识是“怎么做”——系统怎么配、有哪些工具可用、团队做过哪些决策。

一个完整的AI助手,两者缺一不可:

在我的系统里,知识库是用Obsidian搭建的——一个本地笔记软件,但我把它改造成AI可以随时查阅的“维基百科”。Agent通过专用搜索工具直接查知识库,就像可以随时翻手册的实习生,不用什么都问老板。

搭建一个AI能用的知识库,比想象中复杂。目录结构怎么设计,才能让AI找得到?哪些信息该放知识库,哪些放记忆?怎么维护知识库,才不会变成“堆积如山的垃圾文件”?