让 AI Agent 真正沉淀经验:SkillX 的技能复用之道
为什么你的 AI Agent 每次面对新任务时,都像刚到岗的新人一样手忙脚乱?SkillX 提出了一套让 Agent 自动沉淀、整理并复用“工作经验”的机制——而且这些经验还能够在不同 Agent 之间共享和传递。
到了 2026 年,由大语言模型驱动的 AI Agent 已经能够操作 API、调用各类工具并处理复杂任务。但如果认真观察,就会发现一个明显的问题:不同 Agent 往往各自摸索,重复经历同样的失败与试错。
这就像在一家公司中,每位新员工入职后都要重新摸索业务流程,既没有培训资料,也缺乏前人整理好的经验手册。比如 Agent A 好不容易掌握了某个复杂支付 API 的调用方式,等到 Agent B 接手时,却还得重新从头试验。
现有的“自进化”方案(Self-Evolving)确实试图缓解这一问题,但大多数方法仍停留在轨迹记忆层面——把成功的操作步骤保存下来,等到类似任务出现时再直接复现。可问题在于,这种方式既冗杂(大量重复的底层操作被不断保留),也缺乏迁移性(更换模型后往往无法继续使用)。
浙江大学 ZJUNLP 团队的研究者正是看到了这个痛点。他们提出了 SkillX,一个能够自动构建“技能知识库”的框架。它的核心思想很直接:不要让 Agent 只记住“曾经做了什么”,而是要学会“这件事应该怎么做”——把分散的操作经历提炼为结构化、可复用的技能。
SkillX 最关键的设计,在于它提出的三层技能体系,这也是它区别于以往研究的重要创新点。
可以把一位资深员工掌握的工作知识,理解为三个不同层级:
第一层:规划技能(Planning Skills)——明确接到任务后应当如何拆分步骤。比如面对“处理退款请求”这一任务,规划技能会指导你:先查询订单状态,再核验退款条件,随后执行退款,最后发送通知。这属于策略层面的知识。
第二层:功能技能(Functional Skills)——明确每个子任务具体该怎样完成。比如对于“查询订单状态”这个子任务,功能技能会封装相应的 API 调用流程、参数传递方式以及异常处理逻辑。这本质上是可重复调用的子程序。
第三层:原子技能(Atomic Skills)——明确每个工具的使用规范与常见陷阱。比如“调用支付 API 时,金额字段必须使用整数(单位为分),不能传入浮点数”。这属于执行层面的最佳实践。
这三类技能各自承担不同职责:规划技能决定 Agent“要做什么”,功能技能指导它“具体怎么做”,原子技能则帮助它避免“做错”。
SkillX 中的技能并不是靠人工编写完成的,而是从成功任务的执行轨迹中自动抽取出来的。
具体流程是这样的:先让一个能力更强的 Agent(论文中使用的是 GLM-4.6)去完成训练任务,每个任务执行 4 次。随后对成功轨迹进行“压缩”——剔除探索过程中产生的试错与回退,只保留真正关键的步骤。接下来,再基于压缩后的轨迹,按照三层结构分别提取规划技能、功能技能和原子技能。
这个过程有些像让一位资深工程师复盘自己的 debug 过程,再进一步沉淀成可复用的排查手册——原始过程也许绕了不少弯路,但最终总结出的经验却是最有价值的部分。
不过,初步得到的技能库还远远谈不上完善。为此,SkillX 还设计了一整套迭代优化机制:
技能合并(Skills Merge):将语义接近的技能进行聚类,并合并重复内容。比如“查询用户邮箱”和“获取用户联系方式”本质上可以整合为一个更普适的技能。
技能过滤(Skills Filter):采用双阶段校验——先验证技能是否具备通用性(是否只适用于某个特定场景),再检查其与实际工具接口是否一致(API 是否更新、参数格式是否正确)。
库更新(Library Updates):在新一轮执行中获得新的轨迹后,再从中抽取新技能,并与现有技能库继续整合。论文中发现,经过 3 轮迭代后,整体效果会逐步趋于稳定。
SkillX 还有一个相当巧妙的设计:由经验驱动的主动扩展机制。
它会分析当前技能库的覆盖范围,识别出哪些工具调用不足、哪些场景尚未形成对应技能,然后主动生成新的训练任务去补足这些盲点。这种方式比随机生成探索任务高效得多——论文实验表明,定向探索所发现的新技能数量,明显多于随机方法。
SkillX 在三个主流 Agent 基准测试中进行了验证:BFCL-v3(函数调用)、AppWorld(真实应用交互)和 τ²-Bench(客服场景)。
其中最具说服力的结果,来自跨模型迁移实验。用 GLM-4.6 提取出的技能库,直接供 Qwen3-32B 使用:
Qwen3-32B + SkillX 技能库带来的提升为:BFCL-v3 从59.33 提升到 63.67,AppWorld 从32.94 提升到 35.12,τ²-Bench 零售场景从58.12 提升到 66.87——其中零售场景的增幅接近 15%。
这说明了什么?一个相对较弱的模型,在接入了更强模型沉淀下来的“工作经验”之后,某些场景中的性能可以提升接近 15%。这就像一位刚毕业的新员工,在拿到团队多年积累的操作手册后,工作效率一下子迈上了新台阶。
另一个值得关注的结论是:三层技能对不同模型的作用并不相同。对于能力较弱的模型来说,规划技能帮助最明显(因为它们最需要先弄清楚“该做什么”);功能技能则带来了最大的整体收益;而当 API 使用规范不够清楚时,原子技能的重要性尤其突出。
传统的 Agent 学习方式,本质上是让每个个体都从零开始摸索。SkillX 则把这一过程升级为组织层面的知识沉淀。一个 Agent 的成功经验可以被提炼、保存,并进一步惠及后续所有 Agent。这不只是一次渐进式优化,而是一种范式转变——从“个体学习”走向“组织学习”。
论文里还有一个颇为反直觉的发现:即便用更强的模型来提取技能,如果知识表示方式不合理,迁移效果反而会变差。换句话说,知识如何组织,往往比由谁来总结更重要。这对整个 Agent 社区都是一个重要提醒——我们或许把太多精力投入到了提升单个模型能力上,却忽视了经验的结构化表达。
在真实部署中,成本和延迟常常意味着你无法一直使用最强模型。SkillX 提供了一条新的思路:让强模型在线下沉淀技能,让弱模型在线上负责执行。这种方式对商业落地非常有吸引力——训练成本只需一次投入,而推理成本则能够持续下降。
技能库优于轨迹记忆:如果你正在搭建 Agent 系统,与其让 Agent 保存完整历史轨迹,不如把精力放在经验的结构化提炼上。SkillX 的三层架构(规划→功能→原子)就是一种很值得参考的组织方式。
迭代优化不可或缺:一次性抽取出的技能库质量通常有限。论文显示,经过 3 轮迭代后效果会逐渐稳定,这样的投入产出比是相当合理的。
重视工具使用中的“隐性知识”:许多 API 的使用陷阱并不会明确写进文档里(如参数格式、调用顺序、异常处理等),而原子技能恰恰擅长捕捉这一类知识。如果你的 Agent 经常在工具调用上出错,可以优先从这一层入手优化。
跨模型迁移完全可行:不要默认经验只能局限在同一个模型内部使用。SkillX 已经证明,只要技能具备良好的结构化表达,就可以在不同模型、不同场景之间迁移。这也为未来“技能市场”之类的生态形态提供了更多想象空间。
关注“论文收割机”,每周为你挑选最值得留意的 AI 论文。