拆解 AI 进化全景:从大模型基座到具身智能
许多人在浏览 AI 资讯时感到愈发困惑:LLM、VLM、物理世界模型、Agent 以及具身智能等概念交织混杂。究其本质,这些内容可划分为三个截然不同的维度:
此层级构成了 AI 的原生思维中枢,依托海量数据训练而成,是后续所有功能能力的基石。
需明确一个核心认知:LLM、VLM 与世界模型之间,绝非简单的“三种并列大脑”关系——
VLM 等同于 LLM 加上视觉感知能力,它并非凭空出现的第三类大脑,而是 LLM 的视觉增强版本。它攻克了 AI 无法理解图像的难题,能够识别照片、屏幕截图及现实物体。
关键点在于:VLM 并非与 LLM 平起平坐——恰恰相反,只要为任何文本 LLM 接入视觉编码器,它即刻转化为 VLM。这也解释了为何绝大多数 VLM(如 GPT-4V、Claude Vision、Gemini Vision)均是在现有 LLM 基础上扩展而来。
然而,它所感知的世界仅由一帧帧静止画面组成:能识别斜坡与小球,却完全无法预判松手后小球的滚动轨迹、碰撞反弹及最终停驻位置。
简而言之:只能看见当下,无法预见未来,更不懂运动规律。
这是当前 AI 领域最前沿却也最不成熟的探索方向,其技术路径与 LLM、VLM 截然不同:无需物理教科书,无需人工标注公式,仅凭海量连续动态视频,试图自主领悟现实世界的运行法则——请注意是“试图”,截至目前,尚无任何世界模型能实现真正通用的物理理解。
对于杯子摔碎、积木倒塌、流体运动、刚体碰撞等场景,世界模型虽能在特定条件下生成逼真的物理仿真,但:
现状总结如下:世界模型的核心方向正确——即让 AI 通过视频理解物理规律。但在当前(2026 年),它仍是实验室中的明星项目,距离成为“成熟的基础模型”尚有漫长路途。它更适宜被视作“一个极具潜力的研究课题”,而非与 LLM 同等级的成熟产品。
Agent 的核心并非模型本身,而是一套任务调度软件架构,可挂载于 LLM、VLM 或物理世界大模型等任意一种大脑之上。
补充一处细微修正:早期 Agent(2023-2024)确属“纯软件架构,不含任何神经网络”,但 2025-2026 年的前沿 Agent 系统已开始融入可学习组件(例如学习工具调用策略、记忆优先级排序等)。因此更精准的表述是:Agent 框架本质是软件架构,但部分 Agent 实现包含了可训练模型组件,二者并不矛盾。
前述三大脑及 Agent 均为服务器内的虚拟 AI,仅存于代码之中;具身智能 = 底层大脑 + Agent 决策框架 + 机器人硬件躯体,代表了整条 AI 技术链的最终落地形态。
一个重要修正:文章常有的误解是“缺乏世界模型,机器人便无法执行精细操作”。事实上,传统机器人技术(工业机械臂、波士顿动力、扫地机器人)已运行数十年,彼时根本不存在“世界模型”这一概念——依靠的是控制理论、PID、模型预测控制、强化学习等经典方法。世界模型是让机器人更聪慧的可选技术路径,但非唯一途径,更非必要条件。