AI 团队协作与共享笔记
如果让多个 AI 共同解决难题,最大的难点往往不在于谁更智能。
难点在于:任务如何分配?成果如何汇总?如何鉴别哪些发现是可靠的?
这篇论文提出的 DeLM 系统,可以类比为一个班级场景:多名同学共同攻克难题。以往总需一位班长收集纸条、转述并整理答案,而 DeLM 则采用了一种新方式:让大家共同查阅一本公共笔记本。
这与我们息息相关,因为未来许多复杂任务将交由一组 AI 共同完成。无论是编写代码、检索资料、研读论文还是记录实验日志,都不再像个人单打独斗,更类似于小组协同作业。
然而,小组协作最忌讳信息在传递中遗失。
许多多智能体系统都采用“班长制”模式。
主智能体充当班长角色。它拆解任务并分发给多个子智能体。子智能体完成后将结果上交,班长再进行阅读、整理并规划下一轮行动。
这种设计易于理解且易于实现。
但随着成员增多,班长便成了效率瓶颈。
每张纸条、每次失败尝试乃至关键限制条件,都需先经班长之手。任何一次转述都可能导致细节丢失。
例如,若子智能体发现“此路不通”,而这一信息未能准确传达,其他智能体便可能重蹈覆辙,再次尝试错误路径。
因此,本文的核心议题并非“能否增加 AI 数量”。
而是探讨:如何让分散的 AI 共享进展,从而避免彼此空转浪费时间?
DeLM,全称可解读为“具备共享上下文的去中心化语言模型系统”。
它包含三个核心组件。
首先,是一组并行的智能体。它们地位平等,不存在唯一的中心指挥者。
其次,是一个任务队列。可视作一排待办便签,谁空闲谁便取一张处理。
最后,是共享上下文,即那本公共笔记本。每个智能体开工前先查阅笔记,了解他人发现;完成后将有用进展记录其中。
这看似普通的协作文档,DeLM 却增设了一条关键规则:写入内容必须先压缩,再进行验证。
“压缩”意味着不粘贴整段聊天、命令输出或推理过程,仅保留对他人有用的小纸条。
例如:
“此假设已失效。”
“错误文件位于此处。”
“此约束不可放松。”
“此修补方向已通过复现实验。”
如此一来,智能体无需阅读大量原始记录,便能迅速掌握当前局势。
任务队列宛如一排待办事项。
在传统模式中,班长常需等待全员返回后,再汇总并分发下一批任务。这种同步的“分发与收集”模式,一旦有人滞后,便会卡住整体进度。
DeLM 的模式更似自习室。
任务一旦发布即入队列,空闲智能体自行领取。完成后将结果写入公共笔记本。队列清空后,最后完成者会检查:是否尚缺任务?若缺则生成新任务,若足则整理最终答案。
这使得协作更似流水线,而非频繁召开的大会。
其背后的益处颇为朴素。
个人的失败发现能瞬间转化为所有人的路标;定位的关键文件可供后续人员沿用;确认的限制条件亦无需班长重复解释。
并行不仅指“同时工作”,更指“同时积累公共进展”。
若共享上下文过于庞大,同样会引发问题。
试想一个班级公共笔记本,若将每个人的草稿都粘贴其中,虽信息完整,却无人能翻阅。
故 DeLM 将信息划分为三层。
最上层为极短的要点,文中称为 gist,可视为“便利贴摘要”。大家默认优先查阅此层。
中间层为更完整的摘要,记录要点来源及关键限定。
最底层为原始证据,如原文片段、代码运行结果及详细轨迹。
这正如复习时,先看目录,再读课堂笔记,最后才翻阅教材原文。
这一层设计至关重要。
仅看短摘要易遗漏条件;频繁查阅原文又成本过高。DeLM 令智能体先以短摘要导航,待需细节时再展开。
论文中的长文本问答实验正是通过此法提升准确率:系统先建立经验证的文档地图,再按需展开细节。
公共笔记本存在一个隐患。
若错误信息被录入,所有人皆可见。它看似“公共事实”,实则是某智能体的误读。
因此,DeLM 不允许结果直接入库。
每条新笔记均需验证:对于长文档摘要,检查是否获原文支持;对于推理结果,检查小纸条是否忠实保留原发现、失败、约束或证据。
验证不通过则重写或丢弃。
此设计解释了论文中的一项实验现象。
在 LongBench-v2 多文档问答中,若移除“入库前验证”,准确率会显著下降。原因很简单:错误笔记一旦进入公共本,后续人员便会将其视为真理。
这对日常使用 AI 亦有启示。
让 AI 长期记忆不难,难的是仅让其记录“已查证之物”。记忆若无