多模态AI的认知困境:为何能感知万物,却难以真正"理解"?
The AI Frontier | 前沿公开课
多模态AI的认知困境:为何能感知万物,却难以真正"理解"?
斯坦福CS25公开课:一位跨模态研究者,揭示了"原生多模态"最核心的矛盾
原生多模态智能 · 斯坦福 CS25 Transformers United V6
"我们几乎把语言模型的整套方法论,照搬到了多模态领域。但我想说——这只是起点,远非终点。"
—— Victoria Lin|Thinking Machines Lab 技术成员,前 Meta AI / Salesforce AI 研究科学家
你可能每天都在使用多模态AI:上传一张数据截图让它分析数字,让它理解一份PDF文档,或者直接让它生成一张图片。这些模型似乎无所不能——它们能识别图像、能创作画作、能理解声音、能撰写内容。
但在斯坦福那间著名的CS25教室里,一位深度参与这场技术变革的研究员,却抛出了一个让全场陷入沉思的问题:为什么我们给AI投喂再多的视频数据,它依然无法因此获得更强的"思维能力"?
她叫 Victoria Lin,曾在 Meta 主导研发这一代多模态模型的核心架构。她的这场演讲,与其说是技术展示,不如说是一次坦诚的"自我反思"——揭示当今AI究竟在哪些方面表现出色、在哪些方面遭遇瓶颈,以及那个至今悬而未决的根本难题。
原生多模态,远不止"能看懂图片"这么简单
一|统一理念:万物,皆可"切分为token"
要理解"原生多模态",Lin 给出了一个极其简洁的比喻:将一切转化为 token。
语言模型的处理方式你应该已经了解——用 BPE 将文本分割成一个个小型 token,然后让 Transformer 预测"下一个 token"。原生多模态的核心洞察是:图像、音频、视频,同样可以这样处理。
图像如何切分?将整张图片划分成若干 16×16 像素的小"图块"(patch),每个图块编码为一个向量,排列成序列,就变成了"图像 token"。视频,不过是"一系列图像",逐帧切分后拼接。音频则对波形进行变换后编码。
无论文本、图像、音频还是视频,先统一"token化",再交给同一个 Transformer 进行自回归预测
一旦万物都转化为 token,语言模型那套成熟的技术——提示工程、指令遵循、规划、推理、规模化、混合专家(MoE)——几乎可以完全迁移到多模态领域。
当前模型大致分为两类:一类是"多模态输入、纯文本输出",如 Gemini、Qwen、Kimi,你给它图像、它用文字回复;另一类是"全能模型"(Omni),输入输出都可以是多模态,如能直接生成图像的 GPT-4o。
二|一条技术演进脉络:三代架构的迭代
接下来是这场演讲最具技术深度、也最引人入胜的部分——Lin 亲历的三代"全能模型"架构,宛如一场接力赛,每一棒都在弥补上一棒的不足。
第一棒 · Chameleon:将图像也"离散化"
最大胆的想法是:连图像也用 VQ-VAE 技术压缩成离散 token,然后与文字交织在一起,从头开始训练。它首次证明了:文本与图像混合从零训练,既能掌握多模态能力,又不损害纯文本能力。
但代价也很明显:离散化会丢失信息——进行图像理解时明显不如使用连续编码的模型;进行生成时也很"消耗token",需要海量数据才能生成高质量图像。
第二棒 · Transfusion:将扩散融入 Transformer
于是诞生了 Transfusion:图像不再离散,而是采用连续表示。它在同一个 Transformer 里,对文字进行自回归预测,对图像进行扩散生成(图像部分使用双向注意力)。结果是画质更优、更省 token。
但它暴露了一个至今未解的开放难题:适合"生成"图像的表示,往往不适合"理解"图像。所以当前最强大的全能模型,常常被迫为图像配备两套编码器。
第三棒 · 混合 Transformer(MoT):为每个模态配备一套"专属大脑"
既然不同模态的信息密度差异巨大,为何非要使用同一套参数硬撑?混合 Transformer 的方案是:每个模态都有各自独立的一套 Transformer 参数(注意力的 QKV、前馈层都分开),按 token 的模态"确定性地"路由到对应参数,再在注意力层进行一次联合融合。
从 Chameleon 到 Transfusion 再到混合 Transformer——一条持续补足短板的技术演进脉络
实验从 1.63 亿参数逐步扩展到 70 亿参数,结论非常出色:MoT在不影响文本能力的前提下,显著提升了图像、语音等非文本模态的生成质量,能更精准地遵循细粒度指令。
它还带来了一个工程上的优势:你可以拿一个现成的强大文本模型,冻结它的文本能力,只新添加一套图像或语音参数进行训练——以异步、低风险的方式"扩展"新模态。这套思路后来被 Bagel 等模型继承,连机器人领域也用它来预测"动作"这个新模态(即如今的视觉-语言-动作模型)。
三|全场最颠覆认知的发现:迁移,是不对等的
如果这场演讲只能带走一个结论,那就是它——也是 Lin 反复强调的核心洞察。
问题是:理解能力与生成能力,能否相互促进?答案出人意料地不对等:
理解 → 生成:强力正向。模型的理解、规划、推理能力越强,生成的图像细节越丰富,信息图表越准确、"幻觉"越少。
生成 → 理解:几乎没有证据。你用海量算力把模型训练成生成高手,它的"看懂图"的能力却未必提升。
理解能反哺生成,生成却无法培养理解——一条单向的链条
更引人深思的是一个被广泛讨论的悖论(伯克利教授 Sergey Levine 也曾发帖感叹):为什么在语言上做"预测下一个词",能涌现出惊人的能力;而在视频上做"预测下一帧",却没能让视频模型变得更聪明?
Lin 给出的解释,是整场演讲最犀利的一击:
此外,图像视频的损失地形更加复杂(人眼看起来还很糟糕时,loss 可能已经"看起来不错"),相邻帧也高度冗余。这说明:把语言模型那套照搬过来虽然好用,但绝不是故事的结局——多模态还有更根本的问题未解决。
四|数字世界已被攻克,物理世界仍是未知领域
那当前的多模态模型,究竟处于什么阶段?Lin 的判断非常清醒:它们擅长"数字世界"的信息处理,但离真正的"物理世界智能"还很遥远。
同一批模型,在数字世界游刃有余,在物理世界寸步难行
阅读 PDF、理解信息图表、分析截图网页、图文问答、编写代码——这些数字任务,"切图块 + 编码器"的范式已经运作得相当成熟。但一旦涉及时空理解、实时感知、空间推理、机器人控制这些真实物理世界的问题,仍是大片未知的领域。
她的短期预判是:我们会先看到一大批为特定能力定制开发的多模态模型,而如何将它们统一整合进一个协调的系统,将是下一个重要的研究方向。
五|那些尚无定论的争论
演讲后的问答同样精彩,几个悬而未决的争论,恰恰是这个领域最迷人的地方。
六|普通人,该如何用好多模态AI?
这场偏重研究的演讲,其实藏着对每个使用者都有价值的判断。将其转化为四条可操作的策略:
四条来自前沿研究的"应用心法"
策略一:用在其优势领域
策略二:让文字充当"骨架"
策略三:认清那条"单向链条"
策略四:关注前沿发展方向
尾声|我们离"真正的智能",还差一场革命
这场演讲最难得的,是它的坦诚。它没有渲染"AGI 明天就会到来",而是清晰地告诉你:多模态是一个开放的、远未被解决的活跃领域,它远不像语言模型那样"已被攻克"。
AI 已经能看、能画、能听。但"感知"不等于"理解","生成"不等于"思考"。我们把语言的胜利复制到了像素和声波上,却在那条从"感官"通往"认知"的路上,刚刚迈出第一步。
如果这篇让你对"多模态AI"有了新的认识 转发给那位以为AI已经无所不能的朋友 也许,这正是看清下一波浪潮的起点
本文核心观点