告别人工编写，AI智能体自主进化复杂技能：CoEvoSkills框架详解

发布时间：2026-05-11 02:21阅读：11

如今,LLM智能体虽能轻松调用几个API工具,但在处理那些包含多个步骤、需要调试和验证的开放性专业任务(例如复杂的软件修复、科学数据分析)时,往往会感到力不从心。为了解决这个问题,Anthropic提出了“技能(Skill)”的概念——这是一种包含指令、脚本和领域知识的复杂工具包。然而,目前这些技能包主要还是靠人类专家手写,这不仅费时费力,还存在严重的“人机认知错位”(Human–machine cognitive misalignment)——人类觉得好用的流程,AI并不一定觉得好用。本文介绍了一篇前沿论文CoEvoSkills,提出了一种让智能体“登峰造极”般自主进化复杂技能包的框架。该框架无需真实的测试答案,仅通过“技能生成器”和“代理验证器”的协同进化,它不仅在评测中全面超越人类手写的技能包,还能将学到的技能无缝迁移给其他模型(如GPT、Qwen、DeepSeek等),让不同模型的表现大幅飙升。

大型语言模型(LLM)智能体在推理、规划和环境交互方面发展迅速。这背后的一个关键驱动力在于调用外部工具(Tool)和API的能力。但是,专业的开放式任务远远不止于孤立地调用工具。智能体必须协调多个步骤:分解目标、协调工具、从失败中恢复,并验证中间输出。

为填补这一空白,Anthropic定义了“智能体技能(Agent Skills)”。究竟何为“技能”?它与常规“工具”有何本质区别?

SkillsBench评测表明,配备精心设计的技能包能显著增强智能体解决难题的能力。但现有模式严重依赖人工编写,既耗费人力又效果不一。更糟的是,专家撰写的教程未必符合AI的运行逻辑。

为降低人工依赖,研究界尝试让智能体自主生成工具。但这面临“工具-技能鸿沟”:现有方法仅能生成简单单函数,难以构建多文件协调的复杂技能。此外,多数自我纠错机制依赖真实基准(Ground-truth)反馈,而现实中往往缺乏标准答案。

鉴于此,论文推出了CoEvoSkills:一个技能自我进化的框架。该框架巧妙设计了两个“信息隔离”的AI组件以实现协同进化。

鉴于一次性生成多文件技能极不稳定,技能必须迭代优化。CoEvoSkills的进化效率究竟有多高?

在包含87个复杂任务的SkillsBench测试中,CoEvoSkills表现出压倒性优势。

既然能在Claude上进化出高质量技能包,这些技能能否像“秘籍”般移植到其他公司的AI模型中?

这证实了技能包在跨模型家族间具备高度可移植性。自主进化沉淀的是“可复用任务结构”与领域法则,而非特定模型的偏方,故可作为通用外挂大脑广泛分享。

论文附录展示了生动案例:要求AI分析天文光变数据,探测系外行星轨道周期,精度需达小数点后5位。

人类专家在这个任务上写了足足1096行的文档教AI怎么做,罗列了三种算法(BLS、TLS、Lomb-Scargle)让AI自己选。结果AI常常选错,人类技能包的通过率只有53.5%。

CoEvoSkills的进化过程如下:

初期尝试:

AI生成器选用常见BLS算法,代理验证器(如判卷老师)认可格式,予以通过。但因未达5位小数精度要求,真实环境(最终考核)连续反馈75%分数。

顿悟与重构:

迫于压力,智能体放弃BLS,改用更真实的TLS物理模型,并独创“先粗搜、再在候选点±2%范围精搜”的两阶段策略。

最终成型:

进化出的最终技能包仅含64行文档+142行Python代码,删繁就简,强制规定使用TLS算法并提供高精度封装函数。最终测试通过率高达100%!

CoEvoSkills提出的绝妙协同进化架构,让技能生成器与代理验证器相互博弈。它不仅规避了现实中难以获取标准答案的难题,更首次证明:

与其让人类费心教导AI如何工作,不如构建闭环进化环境,让AI自行摸索出专属工作流。

这种脱离特定模型、以代码与文档实体存在的复杂技能包,未来或成新型开源数字资产。试想,未来开发者分享的不仅是Prompt,更是经多轮对战进化、即插即用的AI专业技能包,任何大模型加载后皆可瞬间成为领域专家,这将是何等图景!

(本文首发于“译数据”公众号,内容基于最新技术论文编译整理,旨在分享前沿AI技术)

← 上一篇：AI编程工具实测：WorkBuddy与Trae功能对比评测下一篇：全球忧AI，唯中国全力冲刺 →