酷阅新闻

多模态AI的认知困境：为何能感知万物，却难以真正"理解"？

发布时间：2026-06-07 02:08阅读：33

The AI Frontier | 前沿公开课

多模态AI的认知困境：为何能感知万物，却难以真正"理解"？

斯坦福CS25公开课：一位跨模态研究者，揭示了"原生多模态"最核心的矛盾

原生多模态智能 · 斯坦福 CS25 Transformers United V6

"我们几乎把语言模型的整套方法论，照搬到了多模态领域。但我想说——这只是起点，远非终点。"

—— Victoria Lin｜Thinking Machines Lab 技术成员，前 Meta AI / Salesforce AI 研究科学家

你可能每天都在使用多模态AI：上传一张数据截图让它分析数字，让它理解一份PDF文档，或者直接让它生成一张图片。这些模型似乎无所不能——它们能识别图像、能创作画作、能理解声音、能撰写内容。

但在斯坦福那间著名的CS25教室里，一位深度参与这场技术变革的研究员，却抛出了一个让全场陷入沉思的问题：为什么我们给AI投喂再多的视频数据，它依然无法因此获得更强的"思维能力"？

她叫 Victoria Lin，曾在 Meta 主导研发这一代多模态模型的核心架构。她的这场演讲，与其说是技术展示，不如说是一次坦诚的"自我反思"——揭示当今AI究竟在哪些方面表现出色、在哪些方面遭遇瓶颈，以及那个至今悬而未决的根本难题。

原生多模态，远不止"能看懂图片"这么简单

一｜统一理念：万物，皆可"切分为token"

要理解"原生多模态"，Lin 给出了一个极其简洁的比喻：将一切转化为 token。

语言模型的处理方式你应该已经了解——用 BPE 将文本分割成一个个小型 token，然后让 Transformer 预测"下一个 token"。原生多模态的核心洞察是：图像、音频、视频，同样可以这样处理。

图像如何切分？将整张图片划分成若干 16×16 像素的小"图块"（patch），每个图块编码为一个向量，排列成序列，就变成了"图像 token"。视频，不过是"一系列图像"，逐帧切分后拼接。音频则对波形进行变换后编码。

无论文本、图像、音频还是视频，先统一"token化"，再交给同一个 Transformer 进行自回归预测

一旦万物都转化为 token，语言模型那套成熟的技术——提示工程、指令遵循、规划、推理、规模化、混合专家（MoE）——几乎可以完全迁移到多模态领域。

当前模型大致分为两类：一类是"多模态输入、纯文本输出"，如 Gemini、Qwen、Kimi，你给它图像、它用文字回复；另一类是"全能模型"（Omni），输入输出都可以是多模态，如能直接生成图像的 GPT-4o。

二｜一条技术演进脉络：三代架构的迭代

接下来是这场演讲最具技术深度、也最引人入胜的部分——Lin 亲历的三代"全能模型"架构，宛如一场接力赛，每一棒都在弥补上一棒的不足。

第一棒 · Chameleon：将图像也"离散化"

最大胆的想法是：连图像也用 VQ-VAE 技术压缩成离散 token，然后与文字交织在一起，从头开始训练。它首次证明了：文本与图像混合从零训练，既能掌握多模态能力，又不损害纯文本能力。

但代价也很明显：离散化会丢失信息——进行图像理解时明显不如使用连续编码的模型；进行生成时也很"消耗token"，需要海量数据才能生成高质量图像。

第二棒 · Transfusion：将扩散融入 Transformer

于是诞生了 Transfusion：图像不再离散，而是采用连续表示。它在同一个 Transformer 里，对文字进行自回归预测，对图像进行扩散生成（图像部分使用双向注意力）。结果是画质更优、更省 token。

但它暴露了一个至今未解的开放难题：适合"生成"图像的表示，往往不适合"理解"图像。所以当前最强大的全能模型，常常被迫为图像配备两套编码器。

第三棒 · 混合 Transformer（MoT）：为每个模态配备一套"专属大脑"

既然不同模态的信息密度差异巨大，为何非要使用同一套参数硬撑？混合 Transformer 的方案是：每个模态都有各自独立的一套 Transformer 参数（注意力的 QKV、前馈层都分开），按 token 的模态"确定性地"路由到对应参数，再在注意力层进行一次联合融合。

从 Chameleon 到 Transfusion 再到混合 Transformer——一条持续补足短板的技术演进脉络

实验从 1.63 亿参数逐步扩展到 70 亿参数，结论非常出色：MoT在不影响文本能力的前提下，显著提升了图像、语音等非文本模态的生成质量，能更精准地遵循细粒度指令。

它还带来了一个工程上的优势：你可以拿一个现成的强大文本模型，冻结它的文本能力，只新添加一套图像或语音参数进行训练——以异步、低风险的方式"扩展"新模态。这套思路后来被 Bagel 等模型继承，连机器人领域也用它来预测"动作"这个新模态（即如今的视觉-语言-动作模型）。

三｜全场最颠覆认知的发现：迁移，是不对等的

如果这场演讲只能带走一个结论，那就是它——也是 Lin 反复强调的核心洞察。

问题是：理解能力与生成能力，能否相互促进？答案出人意料地不对等：

理解 → 生成：强力正向。模型的理解、规划、推理能力越强，生成的图像细节越丰富，信息图表越准确、"幻觉"越少。

生成 → 理解：几乎没有证据。你用海量算力把模型训练成生成高手，它的"看懂图"的能力却未必提升。

理解能反哺生成，生成却无法培养理解——一条单向的链条

更引人深思的是一个被广泛讨论的悖论（伯克利教授 Sergey Levine 也曾发帖感叹）：为什么在语言上做"预测下一个词"，能涌现出惊人的能力；而在视频上做"预测下一帧"，却没能让视频模型变得更聪明？

Lin 给出的解释，是整场演讲最犀利的一击：

此外，图像视频的损失地形更加复杂（人眼看起来还很糟糕时，loss 可能已经"看起来不错"），相邻帧也高度冗余。这说明：把语言模型那套照搬过来虽然好用，但绝不是故事的结局——多模态还有更根本的问题未解决。

四｜数字世界已被攻克，物理世界仍是未知领域

那当前的多模态模型，究竟处于什么阶段？Lin 的判断非常清醒：它们擅长"数字世界"的信息处理，但离真正的"物理世界智能"还很遥远。

同一批模型，在数字世界游刃有余，在物理世界寸步难行

阅读 PDF、理解信息图表、分析截图网页、图文问答、编写代码——这些数字任务，"切图块 + 编码器"的范式已经运作得相当成熟。但一旦涉及时空理解、实时感知、空间推理、机器人控制这些真实物理世界的问题，仍是大片未知的领域。

她的短期预判是：我们会先看到一大批为特定能力定制开发的多模态模型，而如何将它们统一整合进一个协调的系统，将是下一个重要的研究方向。

五｜那些尚无定论的争论

演讲后的问答同样精彩，几个悬而未决的争论，恰恰是这个领域最迷人的地方。

六｜普通人，该如何用好多模态AI？

这场偏重研究的演讲，其实藏着对每个使用者都有价值的判断。将其转化为四条可操作的策略：

四条来自前沿研究的"应用心法"

策略一：用在其优势领域

策略二：让文字充当"骨架"

策略三：认清那条"单向链条"

策略四：关注前沿发展方向

尾声｜我们离"真正的智能"，还差一场革命

这场演讲最难得的，是它的坦诚。它没有渲染"AGI 明天就会到来"，而是清晰地告诉你：多模态是一个开放的、远未被解决的活跃领域，它远不像语言模型那样"已被攻克"。

AI 已经能看、能画、能听。但"感知"不等于"理解"，"生成"不等于"思考"。我们把语言的胜利复制到了像素和声波上，却在那条从"感官"通往"认知"的路上，刚刚迈出第一步。

如果这篇让你对"多模态AI"有了新的认识转发给那位以为AI已经无所不能的朋友也许，这正是看清下一波浪潮的起点

本文核心观点

← 上一篇：AI 最大陷阱：误以为自我变强下一篇：AI发展下存储依赖的缓解之路 →