标签

多模态AI的认知困境:为何能感知万物,却难以真正"理解"?

发布时间:2026-06-07 02:08来源:微信阅读:2

The AI Frontier | 前沿公开课

多模态AI的认知困境:为何能感知万物,却难以真正"理解"?

斯坦福CS25公开课:一位跨模态研究者,揭示了"原生多模态"最核心的矛盾

原生多模态智能 · 斯坦福 CS25 Transformers United V6

"我们几乎把语言模型的整套方法论,照搬到了多模态领域。但我想说——这只是起点,远非终点。"

—— Victoria Lin|Thinking Machines Lab 技术成员,前 Meta AI / Salesforce AI 研究科学家

你可能每天都在使用多模态AI:上传一张数据截图让它分析数字,让它理解一份PDF文档,或者直接让它生成一张图片。这些模型似乎无所不能——它们能识别图像、能创作画作、能理解声音、能撰写内容。

但在斯坦福那间著名的CS25教室里,一位深度参与这场技术变革的研究员,却抛出了一个让全场陷入沉思的问题:为什么我们给AI投喂再多的视频数据,它依然无法因此获得更强的"思维能力"?

她叫 Victoria Lin,曾在 Meta 主导研发这一代多模态模型的核心架构。她的这场演讲,与其说是技术展示,不如说是一次坦诚的"自我反思"——揭示当今AI究竟在哪些方面表现出色、在哪些方面遭遇瓶颈,以及那个至今悬而未决的根本难题。

原生多模态,远不止"能看懂图片"这么简单

一|统一理念:万物,皆可"切分为token"

要理解"原生多模态",Lin 给出了一个极其简洁的比喻:将一切转化为 token。

语言模型的处理方式你应该已经了解——用 BPE 将文本分割成一个个小型 token,然后让 Transformer 预测"下一个 token"。原生多模态的核心洞察是:图像、音频、视频,同样可以这样处理。

图像如何切分?将整张图片划分成若干 16×16 像素的小"图块"(patch),每个图块编码为一个向量,排列成序列,就变成了"图像 token"。视频,不过是"一系列图像",逐帧切分后拼接。音频则对波形进行变换后编码。

无论文本、图像、音频还是视频,先统一"token化",再交给同一个 Transformer 进行自回归预测

一旦万物都转化为 token,语言模型那套成熟的技术——提示工程、指令遵循、规划、推理、规模化、混合专家(MoE)——几乎可以完全迁移到多模态领域。

当前模型大致分为两类:一类是"多模态输入、纯文本输出",如 Gemini、Qwen、Kimi,你给它图像、它用文字回复;另一类是"全能模型"(Omni),输入输出都可以是多模态,如能直接生成图像的 GPT-4o。

二|一条技术演进脉络:三代架构的迭代

接下来是这场演讲最具技术深度、也最引人入胜的部分——Lin 亲历的三代"全能模型"架构,宛如一场接力赛,每一棒都在弥补上一棒的不足。

第一棒 · Chameleon:将图像也"离散化"

最大胆的想法是:连图像也用 VQ-VAE 技术压缩成离散 token,然后与文字交织在一起,从头开始训练。它首次证明了:文本与图像混合从零训练,既能掌握多模态能力,又不损害纯文本能力。

但代价也很明显:离散化会丢失信息——进行图像理解时明显不如使用连续编码的模型;进行生成时也很"消耗token",需要海量数据才能生成高质量图像。

第二棒 · Transfusion:将扩散融入 Transformer

于是诞生了 Transfusion:图像不再离散,而是采用连续表示。它在同一个 Transformer 里,对文字进行自回归预测,对图像进行扩散生成(图像部分使用双向注意力)。结果是画质更优、更省 token。

但它暴露了一个至今未解的开放难题:适合"生成"图像的表示,往往不适合"理解"图像。所以当前最强大的全能模型,常常被迫为图像配备两套编码器。

第三棒 · 混合 Transformer(MoT):为每个模态配备一套"专属大脑"

既然不同模态的信息密度差异巨大,为何非要使用同一套参数硬撑?混合 Transformer 的方案是:每个模态都有各自独立的一套 Transformer 参数(注意力的 QKV、前馈层都分开),按 token 的模态"确定性地"路由到对应参数,再在注意力层进行一次联合融合。

从 Chameleon 到 Transfusion 再到混合 Transformer——一条持续补足短板的技术演进脉络

实验从 1.63 亿参数逐步扩展到 70 亿参数,结论非常出色:MoT在不影响文本能力的前提下,显著提升了图像、语音等非文本模态的生成质量,能更精准地遵循细粒度指令。

它还带来了一个工程上的优势:你可以拿一个现成的强大文本模型,冻结它的文本能力,只新添加一套图像或语音参数进行训练——以异步、低风险的方式"扩展"新模态。这套思路后来被 Bagel 等模型继承,连机器人领域也用它来预测"动作"这个新模态(即如今的视觉-语言-动作模型)。

三|全场最颠覆认知的发现:迁移,是不对等的

如果这场演讲只能带走一个结论,那就是它——也是 Lin 反复强调的核心洞察。

问题是:理解能力与生成能力,能否相互促进?答案出人意料地不对等:

理解 → 生成:强力正向。模型的理解、规划、推理能力越强,生成的图像细节越丰富,信息图表越准确、"幻觉"越少。

生成 → 理解:几乎没有证据。你用海量算力把模型训练成生成高手,它的"看懂图"的能力却未必提升。

理解能反哺生成,生成却无法培养理解——一条单向的链条

更引人深思的是一个被广泛讨论的悖论(伯克利教授 Sergey Levine 也曾发帖感叹):为什么在语言上做"预测下一个词",能涌现出惊人的能力;而在视频上做"预测下一帧",却没能让视频模型变得更聪明?

Lin 给出的解释,是整场演讲最犀利的一击:

此外,图像视频的损失地形更加复杂(人眼看起来还很糟糕时,loss 可能已经"看起来不错"),相邻帧也高度冗余。这说明:把语言模型那套照搬过来虽然好用,但绝不是故事的结局——多模态还有更根本的问题未解决。

四|数字世界已被攻克,物理世界仍是未知领域

那当前的多模态模型,究竟处于什么阶段?Lin 的判断非常清醒:它们擅长"数字世界"的信息处理,但离真正的"物理世界智能"还很遥远。

同一批模型,在数字世界游刃有余,在物理世界寸步难行

阅读 PDF、理解信息图表、分析截图网页、图文问答、编写代码——这些数字任务,"切图块 + 编码器"的范式已经运作得相当成熟。但一旦涉及时空理解、实时感知、空间推理、机器人控制这些真实物理世界的问题,仍是大片未知的领域。

她的短期预判是:我们会先看到一大批为特定能力定制开发的多模态模型,而如何将它们统一整合进一个协调的系统,将是下一个重要的研究方向。

五|那些尚无定论的争论

演讲后的问答同样精彩,几个悬而未决的争论,恰恰是这个领域最迷人的地方。

六|普通人,该如何用好多模态AI?

这场偏重研究的演讲,其实藏着对每个使用者都有价值的判断。将其转化为四条可操作的策略:

四条来自前沿研究的"应用心法"

策略一:用在其优势领域

策略二:让文字充当"骨架"

策略三:认清那条"单向链条"

策略四:关注前沿发展方向

尾声|我们离"真正的智能",还差一场革命

这场演讲最难得的,是它的坦诚。它没有渲染"AGI 明天就会到来",而是清晰地告诉你:多模态是一个开放的、远未被解决的活跃领域,它远不像语言模型那样"已被攻克"。

AI 已经能看、能画、能听。但"感知"不等于"理解","生成"不等于"思考"。我们把语言的胜利复制到了像素和声波上,却在那条从"感官"通往"认知"的路上,刚刚迈出第一步。

如果这篇让你对"多模态AI"有了新的认识 转发给那位以为AI已经无所不能的朋友 也许,这正是看清下一波浪潮的起点

本文核心观点