AI技能库为何失效?SkillGenBench揭示的真相
你耗两小时整理SKILL.md,步骤清晰、边界明确、示例完整。
下次遇到类似任务,你满怀期待地将这份文档投入给AI。
AI回应:收到,我来查看此技能。
但最终产出的结果,却与你原本设想大相径庭。
此非记忆问题,乃技能复用失效。此问题,远比你预想的更为棘手。
频繁使用AI Agent后,大家常建「技能库」——将常见工作流转为Prompt合集,或将最佳实践写成SKILL.md。写作公式、邮件模版、回复话术及分析框架,皆备。
然而现实往往骨感:这些库多数仅具心理慰藉。实际应用中,AI要么拒绝主动调用,要么即便调用也显得格格不入。
缘由显而易见:你编写的「技能」本质上是自然语言阐述,而非AI能真正理解并迁移执行的程序。
这一问题在5月18日发表于arXiv的论文中获正式界定——SkillGenBench,即评估AI Agent「技能生成Pipeline」的基准测试。研究发现,AI能否习得并迁移技能,与「描述优劣」关联不大,核心瓶颈在于技能本身是否具备标准化、可执行性及可验证性。
这正是整个行业的认知盲区。
研究人员将「技能生成」解构为两个维度。
第一个维度:任务相关度。
当任务明确时,AI从文档中提炼所需技能——此为任务相关生成,相对容易,因边界清晰。
若不知未来将遇何种任务,需提前储备技能——此为任务无关生成,难度较高,因难以预判储备内容及组织方式。
第二个维度:材料