标签

AI技能库为何失效?SkillGenBench揭示的真相

发布时间:2026-05-19 23:35来源:微信阅读:6

你耗两小时整理SKILL.md,步骤清晰、边界明确、示例完整。

下次遇到类似任务,你满怀期待地将这份文档投入给AI。

AI回应:收到,我来查看此技能。

但最终产出的结果,却与你原本设想大相径庭。

此非记忆问题,乃技能复用失效。此问题,远比你预想的更为棘手。

频繁使用AI Agent后,大家常建「技能库」——将常见工作流转为Prompt合集,或将最佳实践写成SKILL.md。写作公式、邮件模版、回复话术及分析框架,皆备。

然而现实往往骨感:这些库多数仅具心理慰藉。实际应用中,AI要么拒绝主动调用,要么即便调用也显得格格不入。

缘由显而易见:你编写的「技能」本质上是自然语言阐述,而非AI能真正理解并迁移执行的程序。

这一问题在5月18日发表于arXiv的论文中获正式界定——SkillGenBench,即评估AI Agent「技能生成Pipeline」的基准测试。研究发现,AI能否习得并迁移技能,与「描述优劣」关联不大,核心瓶颈在于技能本身是否具备标准化、可执行性及可验证性。

这正是整个行业的认知盲区。

研究人员将「技能生成」解构为两个维度。

第一个维度:任务相关度。

当任务明确时,AI从文档中提炼所需技能——此为任务相关生成,相对容易,因边界清晰。

若不知未来将遇何种任务,需提前储备技能——此为任务无关生成,难度较高,因难以预判储备内容及组织方式。

第二个维度:材料