AI智能体如何实现真正的自我迭代:五条技术路径深度解析
点击蓝字,关注我们
本文字数:12269
预计阅读时间:20分钟
如果将2023年至今的大模型研究脉络浓缩为一句话,
那就是,研究焦点正从静态模型转向具备自我改进能力的系统。
这里的“自我迭代”并非特指在线修改基座模型的全部参数,更精确地说,它描述的是一个多层次闭环优化问题。
系统从交互、执行、评测、失败案例、环境反馈、代码补丁、用户偏好中获取增量经验,再将这些经验蒸馏为可学习信号,反向更新自身的某个层级。
因此,面向研究员和开发者,真正值得探讨的问题不是“模型能否自己变得更聪明”,而是以下这个更具技术性的命题:
能否构建一个稳定的改进闭环,使系统在“经验收集 → 信号提炼 → 参数或结构更新 → 评估与门控”这条链路中持续获得正收益,而非陷入自我确认、奖励作弊或对基准测试过拟合。
本文将重点回答一个更聚焦的问题:
当前论文中,“自我迭代”究竟在优化什么、如何优化、依靠什么证明它确实变好了。
阅读框架:先建立自我迭代的坐标系
“自我迭代”这个概念很容易被阐述得很玄妙,但将近年论文放在一起审视,它实际上是一个很朴素的工程概念:
系统在运行或迭代过程中,利用自身产生或收集到的经验,反向改善自身未来的行为。
这里面有四个基本环节:
很多论文的差异,并不在于它们是否属于“自我迭代”,而在于它们将这四步里的哪一步做得更出色。
本文将“自我迭代”限定在更可落地的范围内:
它不是单次自我反思,也不是一开始就在线修改模型权重,更不是无界限的开放式演化。
一个更准确的理解是:
当前“自我迭代”研究的主流,不是无界限地成长为另一个物种,而是在强评估器和强门控下,逐步提升一个系统在特定任务中的表现。
如果将当前前沿论文按“被优化对象”来分类,大致可以拆成五类:
这五类构成了今天“自我迭代”研究的主要版图,下文将分别展开:
自我迭代五条主路线总览
下面我们将展开讲解这五条路线,其中前四条路线我们将各挑选一篇最具代表性的论文进行详解。
这四篇论文,分别对应“推理自举、自奖励闭环、工作流搜索、代码自修改”四种典型思路。
1
路线一:从自我反思到自我修正
这条路线的核心并非“让模型多想一会儿”这么简单,而是把推理轨迹当作一个可以被筛选、重用、再训练的中间变量。
严格地说,它研究的是:
当最终答案是否正确可以被验证时,能否把“正确答案背后的推理轨迹”转化为新的监督信号,从而形成自举式提升。
从方法结构看,这一类工作可以分成三层:
其中,真正把“单次反思”提升为“参数级能力迁移”的代表,是STaR(Bootstrapping Reasoning With Reasoning)。它之所以重要,不是因为它最复杂,而是因为它第一次将以下问题写成了一个清晰的训练闭环:
如果推理链 r 是潜变量(latent rationale),而最终答案 y 可以被自动验证,那么能否通过对 r 的搜索与筛选,构建出比人工思维链(CoT)更可扩展的训练集?
它将“生成推理链、验证答案、失败后带答案做合理化、再回流训练”的自举闭环画得很清楚。
⬆️⬆️⬆️向上滑动阅览
这里 r 不是普通中间文本,而是一个会影响最终答案条件分布的潜变量。训练目标并不是“让模型直接背答案”,而是让模型学会生成一类有用的推理链:一旦把这类推理链放进上下文,正确答案的条件概率就会显著上升。
STaR 的迭代过程可以概括为:
Step A:推理链采样对每个问题 x,先从当前模型采样若干条推理链:
然后基于这条推理链生成答案:
如果y_hat = y*,说明这条推理链至少在功能上是有效的,就把(x, r, y*)收进下一轮训练集。
Step B:失败后的合理化如果直接采样没有得到正确答案,STaR 不会简单丢弃样本,而是做一个很关键的操作:给定标准答案再反向生成推理链。也就是把正确答案 y* 告诉模型,再让它“合理化”出一条能导向该答案的推理链:
这一步常被称为合理化(rationalization)。它的技术意义很大,因为它相当于在“正确推理轨迹极其稀疏”的早期阶段,为模型补充了可用的潜在解释,从而避免冷启动。
Step C:自举微调把所有保留下来的样本组成新数据集D,并最小化:
然后重复多轮。每一轮训练后,模型都会更擅长直接生成可用推理链,于是下一轮能筛出的高质量样本会更多,形成自举式增强。
如果换一个更“硬核”的视角,STaR 可以理解为一种近似的“潜变量式自训练”:
它和经典自训练的不同在于:普通伪标签学习往往只伪造最终标签,而 STaR 伪造的是结构化中间监督。这使它比“只看对错”更富信息量,也更接近我们真正想提升的能力,也就是多步推理。
从形式上看,它很像把 EM(Expectation-Maximization)的思想嫁接到语言推理上:
当然,STaR 并不满足严格的EM条件,但它提供了一个极强的直觉:推理过程可以被当成可学习的隐变量,而不是纯展示用文本。
很多人第一次看STaR,会把它理解成“让模型自己写思维链”。
这其实低估了它的价值。它真正解决的是一个更基础的问题:
当人工标注高质量推理链的成本过高时,如何利用少量可验证答案,把推理监督扩展出来?
这件事后来影响了很多后续工作:Quiet-STaR、过程监督、推理蒸馏、测试时搜索等,某种意义上都在延续这一范式——即把中间推理过程显式化、筛选化、再训练化。
STaR 并不是没有问题。至少有四个局限需要明确:
但工程上,STaR 给了非常重要的启发:
对于任何“最终结果可验、但过程难标”的任务,都可以考虑把中间结构当作潜在监督来做自举。这一点对于数学、多步检索、工具调用轨迹,甚至记忆召回路径学习,都有直接启发意义。
换句话说,第一条路线真正值得继承的,并不是“反思”这个表面动作,而是这个更深层的思想:
把系统内部的中间过程,从一次性推理产物,提升为可筛选、可累积、可再训练的学习对象。
2
路线二:让模型自己生成训练信号与奖励
如果说第一条路线解决的是“模型能否从自己的推理轨迹里获益”,那么第二条路线要解决的就是另一个更根本的问题:
当高质量人工偏好标注非常昂贵时,谁来提供奖励信号?
这一方向的主线已经很清楚:从 Constitutional AI 的AI Feedback / RLAIF,到后来的Self-Rewarding Language Models
研究重点逐渐从“用规则约束模型”转向“让模型自己参与奖励构造”
从优化角度看,这条路线的难点不在于生成候选答案,而在于构建一个足够稳定的评判器,使得偏好信号不会迅速塌缩成自我迎合。
也正因为如此,第二条路线里最值得技术展开的论文,我会选Self-Rewarding Language Models。
核心思想是让同一个模型既生成答案,也充当评判器打分,再把得到的偏好样本送回 DPO 训练。
⬆️⬆️⬆️向上滑动阅览
传统 RLHF / DPO 流程默认奖励来自外部:要么是人类偏好,要么是单独训练的奖励模型。Self-Rewarding LM 则尝试将这一步也纳入闭环,让同一个模型家族同时扮演:
形式化一点说,给定提示词 x,模型先生成多个候选回答{y_1, ..., y_k},然后再通过一个评判提示词诱导模型输出两两偏好判断:
由此构建偏好数据集:
其中y_w是优胜回答,y_l是劣势回答。
它不是“模型给自己打伪标签”这么简单。真正重要的是:它把奖励构造本身也放进了迭代回路。于是闭环变成:
这意味着策略改进和奖励改进不再是两个完全独立的阶段,而是耦合在一起共同演化。
Self-Rewarding LM 通常使用 DPO(Direct Preference Optimization)而不是显式 PPO。对一个偏好样本对(x, y_w, y_l),DPO 的经典目标是:
这里:
这个式子的关键含义是:我们不需要显式训练一个奖励模型,只需要让当前策略相对于参考策略,更偏向被评判器选中的回答即可。
进一步地,DPO 可以被解释为隐式奖励最大化。其对应的隐式 reward 形式可写成:
其中C(x)是与y无关的常数项。也就是说,Self-Rewarding LM 的“自奖励”并不是凭空来的,它本质上是把评判器产生的偏好关系,压缩进了当前策略相对参考策略的对数概率比中。
从系统视角,可以将第 t 轮写成:
Generation
Judging
Policy update
然后进入下一轮。这里真正有意思的是:
如果评判器质量随着策略一起提升,那么D_t的质量也会随轮次提高,形成一种协同演化;但如果评判器偏差被放大,系统也会进入坏的吸引子。
Self-Rewarding LM 最值得关注的,并不是“又做了一轮DPO”,而是它把以下命题第一次说得非常明确:
对大模型系统而言,奖励模型不一定必须是独立网络;在某些条件下,通用语言模型可以通过评判提示,临时实例化为一个“按任务条件变化的奖励估计器”。
这件事很重要,因为它动摇了RLHF流程里一个长期默认前提:奖励构造必须外包给独立模块。如果评判器可以由语言模型内生提供,那么很多偏好学习流程会变得更轻、更快、更容易迭代。
这类方法最大的问题,是“评判器和策略模型同源”带来的闭环偏置。至少有四种典型风险:
这也是为什么该路线在论文之外的真实工程落地,通常都不会完全纯自举,而会混入:
第二条路线最值得智能体研究者注意的一点,是它把“奖励”从单个标量扩展成了更丰富的语言化监督对象。对智能体来说,这意味着你不一定非要定义一个简单的成功/失败奖励;你也可以定义:
只要这些比较能被评判器稳定地产生,就可以被压缩成偏好样本对,进而进入 DPO、IPO、ORPO 一类优化框架。也就是说,第二条路线真正扩展的,不只是训练信号