标签

AI Agent困于'context rot',超网络开辟第三条路径

发布时间:2026-06-22 08:29阅读:2

教AI理解你的业务,为什么反而让它变得更不可靠?

企业在部署AI Agent时,常常陷入一个奇怪的自负:把业务知识塞给模型,模型反而开始遗忘旧知识。这是传统微调方法的"灾难性遗忘"问题,困扰了AI研究数十年。

01 微调与RAG各自的软肋

微调将知识焊进模型权重,但代价是旧知识的流失。当企业用新政策微调模型时,上季度的规则往往被覆盖。团队只能为每个任务单独训练一个适配器,最终变成一座成本高企、难以管理的"模型动物园"。

示意图(配图与文章内容无关)

另一条路是RAG(检索增强生成):把知识放在外部,推理时再取用。听起来优雅,但Chroma对18个主流模型的测试显示,输入上下文越长,每个模型准确率都在下降——这是注意力机制的结构性局限,不是换个更强的模型就能解决。

02 超网络:按需生成专用适配器

一种新的技术路径正在从研究走向产品:超网络(Hypernetwork)。不是训练一个模型记住所有知识,而是让它在推理时动态生成一个小型专用适配器。Sakana AI的Text-to-LoRA系统已经能在单次前向传播中,从一段文字描述生成一个可用的模型适配器。

示意图(配图与文章内容无关)

这解决了企业最头疼的问题:适配器不再需要一个一个存储和管理,超网络可以在需要时即时生成,包括它从未见过的任务。

03 小模型才是Agent工作流的主角

英伟达研究团队2025年的一篇论文给出了最直接的论据:对于Agent工作流中大量重复性任务,小模型足够好用,而且成本只有顶级模型的十分之一到三十分之一。超网络生成适配器的思路,与"用小模型做专业事"的趋势正在合流。

示意图(配图与文章内容无关)

你的团队在部署AI Agent时,遇到过"知识记不住、上下文太长"的困境吗?欢迎评论区聊聊。

---

本文由AI辅助创作,内容