让 AI Agent 真正沉淀经验：SkillX 的技能复用之道

发布时间：2026-04-08 07:43阅读：13

为什么你的 AI Agent 每次面对新任务时，都像刚到岗的新人一样手忙脚乱？SkillX 提出了一套让 Agent 自动沉淀、整理并复用“工作经验”的机制——而且这些经验还能够在不同 Agent 之间共享和传递。

到了 2026 年，由大语言模型驱动的 AI Agent 已经能够操作 API、调用各类工具并处理复杂任务。但如果认真观察，就会发现一个明显的问题：不同 Agent 往往各自摸索，重复经历同样的失败与试错。

这就像在一家公司中，每位新员工入职后都要重新摸索业务流程，既没有培训资料，也缺乏前人整理好的经验手册。比如 Agent A 好不容易掌握了某个复杂支付 API 的调用方式，等到 Agent B 接手时，却还得重新从头试验。

现有的“自进化”方案（Self-Evolving）确实试图缓解这一问题，但大多数方法仍停留在轨迹记忆层面——把成功的操作步骤保存下来，等到类似任务出现时再直接复现。可问题在于，这种方式既冗杂（大量重复的底层操作被不断保留），也缺乏迁移性（更换模型后往往无法继续使用）。

浙江大学 ZJUNLP 团队的研究者正是看到了这个痛点。他们提出了 SkillX，一个能够自动构建“技能知识库”的框架。它的核心思想很直接：不要让 Agent 只记住“曾经做了什么”，而是要学会“这件事应该怎么做”——把分散的操作经历提炼为结构化、可复用的技能。

SkillX 最关键的设计，在于它提出的三层技能体系，这也是它区别于以往研究的重要创新点。

可以把一位资深员工掌握的工作知识，理解为三个不同层级：

第一层：规划技能（Planning Skills）——明确接到任务后应当如何拆分步骤。比如面对“处理退款请求”这一任务，规划技能会指导你：先查询订单状态，再核验退款条件，随后执行退款，最后发送通知。这属于策略层面的知识。

第二层：功能技能（Functional Skills）——明确每个子任务具体该怎样完成。比如对于“查询订单状态”这个子任务，功能技能会封装相应的 API 调用流程、参数传递方式以及异常处理逻辑。这本质上是可重复调用的子程序。

第三层：原子技能（Atomic Skills）——明确每个工具的使用规范与常见陷阱。比如“调用支付 API 时，金额字段必须使用整数（单位为分），不能传入浮点数”。这属于执行层面的最佳实践。

这三类技能各自承担不同职责：规划技能决定 Agent“要做什么”，功能技能指导它“具体怎么做”，原子技能则帮助它避免“做错”。

SkillX 中的技能并不是靠人工编写完成的，而是从成功任务的执行轨迹中自动抽取出来的。

具体流程是这样的：先让一个能力更强的 Agent（论文中使用的是 GLM-4.6）去完成训练任务，每个任务执行 4 次。随后对成功轨迹进行“压缩”——剔除探索过程中产生的试错与回退，只保留真正关键的步骤。接下来，再基于压缩后的轨迹，按照三层结构分别提取规划技能、功能技能和原子技能。

这个过程有些像让一位资深工程师复盘自己的 debug 过程，再进一步沉淀成可复用的排查手册——原始过程也许绕了不少弯路，但最终总结出的经验却是最有价值的部分。

不过，初步得到的技能库还远远谈不上完善。为此，SkillX 还设计了一整套迭代优化机制：

技能合并（Skills Merge）：将语义接近的技能进行聚类，并合并重复内容。比如“查询用户邮箱”和“获取用户联系方式”本质上可以整合为一个更普适的技能。

技能过滤（Skills Filter）：采用双阶段校验——先验证技能是否具备通用性（是否只适用于某个特定场景），再检查其与实际工具接口是否一致（API 是否更新、参数格式是否正确）。

库更新（Library Updates）：在新一轮执行中获得新的轨迹后，再从中抽取新技能，并与现有技能库继续整合。论文中发现，经过 3 轮迭代后，整体效果会逐步趋于稳定。

SkillX 还有一个相当巧妙的设计：由经验驱动的主动扩展机制。

它会分析当前技能库的覆盖范围，识别出哪些工具调用不足、哪些场景尚未形成对应技能，然后主动生成新的训练任务去补足这些盲点。这种方式比随机生成探索任务高效得多——论文实验表明，定向探索所发现的新技能数量，明显多于随机方法。

SkillX 在三个主流 Agent 基准测试中进行了验证：BFCL-v3（函数调用）、AppWorld（真实应用交互）和 τ²-Bench（客服场景）。

其中最具说服力的结果，来自跨模型迁移实验。用 GLM-4.6 提取出的技能库，直接供 Qwen3-32B 使用：

Qwen3-32B + SkillX 技能库带来的提升为：BFCL-v3 从59.33 提升到 63.67，AppWorld 从32.94 提升到 35.12，τ²-Bench 零售场景从58.12 提升到 66.87——其中零售场景的增幅接近 15%。

这说明了什么？一个相对较弱的模型，在接入了更强模型沉淀下来的“工作经验”之后，某些场景中的性能可以提升接近 15%。这就像一位刚毕业的新员工，在拿到团队多年积累的操作手册后，工作效率一下子迈上了新台阶。

另一个值得关注的结论是：三层技能对不同模型的作用并不相同。对于能力较弱的模型来说，规划技能帮助最明显（因为它们最需要先弄清楚“该做什么”）；功能技能则带来了最大的整体收益；而当 API 使用规范不够清楚时，原子技能的重要性尤其突出。

传统的 Agent 学习方式，本质上是让每个个体都从零开始摸索。SkillX 则把这一过程升级为组织层面的知识沉淀。一个 Agent 的成功经验可以被提炼、保存，并进一步惠及后续所有 Agent。这不只是一次渐进式优化，而是一种范式转变——从“个体学习”走向“组织学习”。

论文里还有一个颇为反直觉的发现：即便用更强的模型来提取技能，如果知识表示方式不合理，迁移效果反而会变差。换句话说，知识如何组织，往往比由谁来总结更重要。这对整个 Agent 社区都是一个重要提醒——我们或许把太多精力投入到了提升单个模型能力上，却忽视了经验的结构化表达。

在真实部署中，成本和延迟常常意味着你无法一直使用最强模型。SkillX 提供了一条新的思路：让强模型在线下沉淀技能，让弱模型在线上负责执行。这种方式对商业落地非常有吸引力——训练成本只需一次投入，而推理成本则能够持续下降。

技能库优于轨迹记忆：如果你正在搭建 Agent 系统，与其让 Agent 保存完整历史轨迹，不如把精力放在经验的结构化提炼上。SkillX 的三层架构（规划→功能→原子）就是一种很值得参考的组织方式。

迭代优化不可或缺：一次性抽取出的技能库质量通常有限。论文显示，经过 3 轮迭代后效果会逐渐稳定，这样的投入产出比是相当合理的。

重视工具使用中的“隐性知识”：许多 API 的使用陷阱并不会明确写进文档里（如参数格式、调用顺序、异常处理等），而原子技能恰恰擅长捕捉这一类知识。如果你的 Agent 经常在工具调用上出错，可以优先从这一层入手优化。

跨模型迁移完全可行：不要默认经验只能局限在同一个模型内部使用。SkillX 已经证明，只要技能具备良好的结构化表达，就可以在不同模型、不同场景之间迁移。这也为未来“技能市场”之类的生态形态提供了更多想象空间。

关注“论文收割机”，每周为你挑选最值得留意的 AI 论文。

← 上一篇：AI驱动教育变革：2026年十大趋势前瞻下一篇：AI时代的自主文明：治理逻辑与制度重塑 →