AI大模型实现“肌肉记忆”：Token使用量降低超七成，决策更精准

发布时间：2026-04-24 19:50阅读：10

编者按：

AGI时代正加速来临，智能系统从“工具”向“伙伴”转变，同时带来了许多亟待解决的核心问题：如何保证智能系统安全、可信、可控？如何在智能体之间（A2A）建立安全可信的交易支付体系？如何持续提升模型Token效率，让模型又快又准，加速智能体规模化应用？又如何通过高质量数据不断优化大模型性能？面对这些关键挑战，蚂蚁数科将携手高校推出系列技术研究《In Tokens We Trust》，聚焦上述前沿议题，分享我们在探索中的思考与实践。

今天带来专题的第二篇：蚂蚁数科与中国科学技术大学的联合研究成果：让AI大模型拥有“肌肉记忆”：Token消耗直降超70%，决策更准确

你是否遇到过这样的情况：让AI帮忙写一首诗、画一幅画时，它总能立即响应；但当你给它一个复杂的连环任务——比如“帮我查一下上月华东区销量下滑的原因，并生成一份对比报表”时，它要么陷入漫长的“思考中…”，要么经常中途出错卡壳？

这其实是当前大模型普遍面临的“两难困境”：想要深度思考，就得忍受高延迟；想要反应快，往往只能给出浅显的答案。

如何让大模型又快又聪明？蚂蚁数科的AI研发团队近期联合中国科技大学在国际顶尖学术平台上发布了一项技术成果——《SGA-MCTS: Decoupling Planning from Execution via Training-Free Atomic Experience Retrieval》

（点击文末「阅读原文」查看详情），探讨了如何通过“无训练原子经验检索”解耦规划与执行。简而言之，这项技术成功让大模型拥有了“肌肉记忆”，使小体量的AI大模型也能具备媲美顶级大模型（如GPT-5级别）的规划能力，同时算力成本降低76%。

一、AI的“快思考”与“慢思考”

以往AI大模型处理复杂任务时，就像一个每次做饭都要从头翻阅菜谱的“新手厨师”。每切一刀菜、每放一勺盐，它都要停下来重新思考下一步，导致巨大的算力消耗和时间延迟。

蚂蚁数科与中科大的这项新技术，给出了一个极其巧妙的解法。它模仿人类大脑，把AI的“学习”和“执行”分开了：

人类的大脑有两套系统：

系统2（慢思考）：当你第一次帮客户订机票时，你会一步步查询不同航班、比较价格、确认舱位、填写信息、完成支付。这个过程很慢，但能产出高质量的执行路径。

系统1（快直觉）：当你帮过足够多客户订过票之后，再来一位新客户，你几乎不用思考，凭“直觉”就能流畅地走完全程——因为你的大脑已经把这套流程固化成了可以秒调的经验。

SGA-MCTS做的，就是让AI也拥有这种“从慢到快”的进化能力，而且不需要重新训练模型：

第一步（离线）：让AI花时间做大量“深度思考”，把成功的推理路径提炼成一本“经验字典”。

第二步（在线）：面对新任务时，AI不再从头思考，而是先翻字典——找到最匹配的经验，稍作调整就能直接执行。

二、关键创新：

这本“字典”到底怎么编？

如果你把上面的经历“死记硬背”下来，下次有人问你怎么订上海到广州的高铁票，你就懵了——因为你记住的是“东航”“张三”“1280元”，而不是预订交通这件事的通用逻辑。

一本好字典的核心，不在于把每句话原封不动地抄进去，而在于提炼出通用的规则和模式。

SGA-MCTS的做法非常聪明：

深夜的沙盘推演（离线慢思考）：在不面对用户的时候，AI会在后台像阿尔法狗（AlphaGo）下棋一样，对各种复杂任务进行成千上万次推演，寻找最完美的解决路径。

提炼“肌肉记忆”（原子化提取）：找到完美路径后，AI会进行“去伪存真”。例如，它处理了“帮张三订北京的机票”，它会把具体的名字和地点剥离，只记住“帮【某人】订【某地】的机票”这个通用的底层逻辑。这个被提炼出来的通用逻辑，被称为“经验原子”。

白天的秒级响应（在线快直觉）：当用户真正提问时，AI不再需要从头推理，而是像查字典一样，瞬间从大脑库里检索出对应的“经验原子”，直接套用逻辑解决问题。

也就是说，它会把上面的经历“去词汇化”，抽象成通用模板：

当前状态

“已查到东航MU5735，09:00，经济舱”

→

“已获得<交通工具类型>的<舱/席位类型>可用信息”

目标意图

“帮张三订北京到上海的机票”

→

“为<乘客>完成<出发地>到<目的地>的<交通类型>预订”

执行动作

“调用东航支付接口(MU5735, 经济舱, 张三身份证)”

→

“调用<承运商>支付接口(<航班/车次>, <舱位>, <乘客证件>)”

这样一来，你记住的不再是“帮张三订东航机票”这个具体案例，而是“如何完成一次交通预订”这个通用能力。下次无论是帮李四订高铁、帮王五订轮渡，都能直接复用同一条字典经验，只需把占位符替换成新的具体信息。

实验数据印证了这一点： 10,685条原始执行数据，被提炼成仅1,560条通用经验原子——6.9倍的压缩率，换来的是跨场景、跨工具的强泛化能力。

三、“防幻觉”保险：

不是什么经验都能用

你可能会问：万一字典里查到的经验，在当前场景下根本用不了怎么办？

传统的检索增强方案（RAG）很容易犯这种错误，因为它只看“语义像不像”，不看“条件够不够”。这就好比你在字典里查到一个很像的词条，但这个词条的前提条件你不满足——强行套用只会出错。

就像上面的例子：字典确实告诉你“下一步调用支付接口”，语义上完全匹配，但当前连订单号都没有——强行执行只会触发系统报错，甚至产生一笔“幽灵订单”。

SGA-MCTS为此加了一道“符号可行性检查”：

检索经验时，不仅看语义匹配度，还要逐一核验——当前环境是否已经具备了执行这条经验所需的全部前置参数。在上面的例子中，系统会自动检测到“订单号”这个必要参数尚未生成，因此将“调用支付接口”这条经验自动降权排除，转而优先匹配“确认舱位→生成订单”这一前置步骤。

这一设计从根源上大幅遏制了AI智能体最令人头疼的“幻觉调用”问题——不再是“我觉得下一步应该付款”，而是“我已确认所有前置条件就绪，现在可以付款”。

四、实验表现：

节省76% Token消耗

SGA-MCTS 在 StableToolbench、ToolHop 和 BFCL v3 等高难度榜单上展现了压倒性的优势：

搭载 SGA 的 Qwen3-8B 模型，在不经过任何参数微调（非思考模式）的情况下，平均成功率飙升至 44.79%（提升 13.86%），超过参数量大四倍的 Qwen3-32B（40.14%）。而搭载 SGA 的 Qwen3-32B（51.09%）更是大幅缩小了与 GPT-5（55.13%）的差距，甚至在 BFCL v3 多轮对话指标上反超了 GPT-5（54.20% vs 51.68%）。

实现了真正的“推理即检索（Reasoning-as-Retrieval）”。在面对 Hard 级别任务时：

依赖在线搜索的 ReAct-Thinking 模型平均消耗2,712个Token，成功率仅为15.38%。

SGA-MCTS 平均仅需消耗630个Token，不仅节省了76%的计算成本，成功率更是达到了超过61.54%。

长链路推理最怕“一步错，步步错”。面对超过 4 个跳跃步骤的复杂依赖任务，Baseline 的表现会呈现断崖式下跌。而 SGA-MCTS 的原子经验就像是逻辑的“存档点”，每一步都能基于经过验证的 Schema 重新锚定逻辑，使得模型在极难任务中依然保持超过 60% 的成功率。

五、结论：适合大规模应用的

Agent 基础设施

SGA-MCTS 用实验数据证明了一个重要的观点：

在走向通用人工智能的道路上，把模型参数做得越来越大并非唯一解。

把极其昂贵的试错成本平摊到离线阶段，把复杂的战略规划能力沉淀为可被低成本检索的“数字肌肉记忆”——这种“非参数化”的进化路径，为在资源受限、要求低延迟、高可靠性的工业级环境中部署自主智能体，提供了一条极具前景的标准路径。

正如人类的成长不只靠脑容量的增长，更靠经验的积累与高效调用。AI 智能体的进化，或许也是如此。

← 上一篇：房山区AI通识课平台正式上线，盛通教育助推区域智能教育全覆盖下一篇：大模型开发工程师认证体系全面解读 →