AI技能库为何失效？SkillGenBench揭示的真相

发布时间：2026-05-19 23:35阅读：13

你耗两小时整理SKILL.md，步骤清晰、边界明确、示例完整。

下次遇到类似任务，你满怀期待地将这份文档投入给AI。

AI回应：收到，我来查看此技能。

但最终产出的结果，却与你原本设想大相径庭。

此非记忆问题，乃技能复用失效。此问题，远比你预想的更为棘手。

频繁使用AI Agent后，大家常建「技能库」——将常见工作流转为Prompt合集，或将最佳实践写成SKILL.md。写作公式、邮件模版、回复话术及分析框架，皆备。

然而现实往往骨感：这些库多数仅具心理慰藉。实际应用中，AI要么拒绝主动调用，要么即便调用也显得格格不入。

缘由显而易见：你编写的「技能」本质上是自然语言阐述，而非AI能真正理解并迁移执行的程序。

这一问题在5月18日发表于arXiv的论文中获正式界定——SkillGenBench，即评估AI Agent「技能生成Pipeline」的基准测试。研究发现，AI能否习得并迁移技能，与「描述优劣」关联不大，核心瓶颈在于技能本身是否具备标准化、可执行性及可验证性。

这正是整个行业的认知盲区。

研究人员将「技能生成」解构为两个维度。

第一个维度：任务相关度。

当任务明确时，AI从文档中提炼所需技能——此为任务相关生成，相对容易，因边界清晰。

若不知未来将遇何种任务，需提前储备技能——此为任务无关生成，难度较高，因难以预判储备内容及组织方式。

第二个维度：材料