AI先驱Yann LeCun再破世界模型瓶颈:AI实现边执行边进化!
世界模型被普遍视为迈向通用人工智能的关键路径之一,它相当于AI在内部构建了一个由外部环境构成的模拟系统,Yann LeCun是这一领域极具号召力的倡导者。
以往的世界模型存在一个明显短板:在实验室中用大量数据完成训练后,其参数随即进入冻结状态,然后直接投入使用,相当于训练一次,终身使用。这使得它一旦进入新环境,碰到未曾见过的情形,就很容易暴露出掉链子的状况。
模型能否适应现实环境,完全取决于训练数据是否涵盖所有情形,但现实环境的复杂度远超训练数据所能覆盖的范围。
近期,纽约大学携手前Meta首席AI科学家LeCun创建的AI研究机构AMI,公布了JEPA系列的最新研究成果——AdaJEPA。
这项工作最核心的突破,并非让世界模型运转得更准确,而是让世界模型首次拥有了部署后的持续学习能力。
它能够在执行任务期间,依据真实环境,一边运行一边调整自身的认知,让世界模型越用越灵活。
过去主流世界模型的运作方式是这样的:
1、离线训练:先给模型输入大量历史数据,学习环境,归纳规律,把复杂的图像、视频压缩为更易计算的隐空间,并在这个隐空间内推断未来可能发生的情况。
2、测试部署:到了实际应用阶段,会配合一种名为MPC模型预测控制的算法。
什么是MPC?
把它类比为开车:你坐在驾驶位向前观察一段路,脑中规划好接下来的一系列动作,比如打方向、踩油门、踩刹车。
但你不会闭着眼把这一连串动作执行完,而是在踩第一脚油门车子移动后,去观察最新的路况,再重新看路、重新规划下一步动作!
这种方式在训练环境中效果尚可,一旦物理环境发生改变,出现训练阶段未见过的新场景,原本精确的世界模型就会失效,甚至变得迟钝!
例如,训练时推动的都是方形积木,实际中给它一个圆形的。此时,冻结的模型在隐空间里以为我这么推,它就会前进,但实际操作时,积木早已滚到一旁。
但MPC是持续向前推演的,只要模型预测出现细微偏差,后续误差便会持续累积扩大,最终造成规划崩溃。
这也是当前众多世界模型真正落地时遭遇的核心难题:模型不会随着环境改变而进化。
而AdaJEPA,正是为了攻克这个难题!
人类不会依赖十几二十年前掌握的知识,应对当下所有的问题,而是在行动过程中,持续根据现实反馈,来修正判断。
AdaJEPA能让世界模型同样具备这种能力。
MPC以往的流程是:规划 → 执行 → 再规划;
而AdaJEPA转变为:规划 → 执行 → 观测 → 更新 → 再规划。
虽然仅增加了两个步骤,但意义截然不同。当模型完成一次动作后,会立即获取真实环境反馈。
系统不会忽略这些新信息,而是将它们当作新的学习样本,对世界模型进行一次轻量级更新。
更新完成后,再进入下一轮规划;每一次行动都会让模型对当前环境理解得更为精准。
部署后的世界模型不再是一张离线地图,而是一位持续积累经验、不断提升技能的老司机。
实时更新,那算力撑得住吗?
会不会卡顿?模型会不会学乱了?甚至崩溃?
AdaJEPA每走一步并不需要重新训练整个神经网络,它最大的设计亮点就是轻量化。
整个系统依然建立在JEPA架构之上。JEPA并不像视频预测模型那样生成未来图像,而是在隐空间中预测未来状态,因此计算开销更低,也更为稳定。
为避免算力卡死,也为防止在线更新把原本训练良好的参数拖垮,LeCun团队还引入了两项约束:
首先,对目标特征采用Stop-Gradient,使目标表示维持稳定。
其次,在每次重新规划时,仅更新模型最后几层参数,只调整一小部分参数,而非重新训练整个网络。
这种设计既保障了学习能力,又化解了在线训练成本过高的难题。
AdaJEPA最核心的创新,不在于提升模型规模,而是在部署阶段引入持续校准机制。
每完成一次动作,系统都会把最新获取的数据存入一个在线缓存。
缓存不会无限膨胀,仅保留最近一段时间的数据。
随后模型利用这些最新样本预测下一状态,并与真实环境进行比对。
预测越精确,说明模型越熟悉当前环境;预测偏差越大,系统便依据误差进行快速修正。
执行下一轮规划时所采用的世界模型,已经不是刚部署时的那个版本,而是经过当前环境持续调整后的新版本。
换句话说,世界模型开始拥有了边执行边学习的能力!
为验证这一机制是否真正奏效,LeCun团队分别在PushObj和PointMaze两个经典世界模型测试平台开展了实验,重点考察模型面对训练阶段从未见过的新环境时的表现:
在PushObj任务中,当机器人遭遇全新的物体形状时,AdaJEPA几乎将任务成功率翻倍;在PointMaze任务中,同样收获了大幅提升。
面对那些在训练时完全没见过的物体形状或迷宫布局,AdaJEPA展现出了强大的自适应能力,规划成功率实现跨越式提升。
更令人惊喜的是延迟问题:由于AdaJEPA每次仅更新最后几层,而且只执行1步梯度下降,实验测算下来,每次重规划带来的额外延迟仅为 0.01 到 0.03 秒。
也就是说,这种成功率提升并非依靠堆砌沉重的算力换取,只需极小的额外投入,就能让世界模型在面对内部结构或外部环境变化时,仍能维持功能稳定运行的能力。
模型不仅借助已有经验进行预测,还持续通过与真实环境交互,修正自身的世界认知。
若这一方向持续推进,世界模型将不仅是负责预测未来的模拟器,而是会进化为能持续积累经验、自主适应环境的智能体。
对于机器人、自动驾驶、智能制造以及未来具身智能而言,AI将不再依赖一次性的训练,而是能拥有超越人类的持续学习和成长的能力。
从这个视角看,AdaJEPA的意义并非在于提升了多少百分点的新突破,而是在世界模型的路径上:从静态知识库迈向动态智能体!