实时交互AI时代来临：前OpenAI CTO重塑人机对话方式

发布时间：2026-05-13 12:08阅读：25

你是否曾有过这样的经历——

与AI对话时，你说完一句话，它需要"思考"好几秒才能噼里啪啦回一大段。想中途插话？抱歉，它听不见。想补充信息？等它讲完再开口。

这感觉就像在用对讲机跟一个天才沟通——你按住说话，松开等待；对方按住说话，松开等待。

明明已经2026年了，人类与AI的互动方式竟然还停留在"回合制"阶段。

直到昨天，一家沉寂了18个月的公司，终于亮出了底牌。

5月11日，Thinking Machines Lab（以下简称TML）发布了公司成立以来的首款模型——TML-Interaction-Small。

这家公司的背景非同寻常：

创始人是前OpenAI首席技术官Mira Murati，也就是主导ChatGPT、DALL-E、Sora开发的那位女性。2024年9月离开OpenAI，2025年2月创立TML。

联合创始团队堪称AI领域的"复仇者联盟"——

OpenAI联合创始人John Schulman、前研究副总裁翁荔（Lilian Weng）、前研究副总裁Barrett Zoph……

成立仅5个月，就斩获20亿美元种子轮融资，由a16z领投，英伟达、AMD跟投，估值高达120亿美元。

要知道，当时他们连一个产品影子都没有。

如今，18个月已过，这个"史上最贵种子轮"的答卷终于揭晓。

而它带来的成果，可能比大多数人预期的更具颠覆性。

先说结论：TML完成了一件所有大厂都没能实现的事——让AI"边听边说"。

"回合制"究竟是什么问题？

目前所有主流AI，无论是GPT、Gemini还是Claude，都采用回合制交互：

在AI回复你的那几秒钟里，它对外界完全"失聪失明"。你的新指令、你的表情变化、你指的方向——它统统无法感知。

业界目前怎么应对？

答案是打补丁——在大模型外面套一层VAD（语音活动检测），强行塞入实时场景。

就像给一个不会游泳的人绑上游泳圈，看着能浮，但永远学不会游泳。

TML的解决方案：200毫秒"微回合"

TML的思路完全不同。

它把时间切分成每200毫秒一个单位，在每个单位内同时处理输入和生成输出。

200毫秒是什么概念？大约是人类从听到声音到开口反应的最短自然窗口。

具体来看：

而且，音频、视频、文本三种模态从零开始进行联合训练——

声音里的笑意、画面里的表情、文字里的犹豫，模型在同一层就能捕捉到。

这不是在旧架构上打补丁，而是从底层重写了"AI怎么跟人交流"这件事。

光说概念没用，看数据。

TML在论文里给出了与GPT-Realtime-2.0和Gemini的正面对比：

交互质量评分（FD-bench V1.5）：

TML：77.8分

响应延迟：

TML：0.40秒

GPT-Realtime-2.0：1.18秒

Gemini-3.1-flash-live：0.57秒

主动开口能力（TimeSpeak/CueSpeak）：

你没看错，在"AI什么时候该主动说话"这件事上，TML领先GPT十几倍。

TML官方直言：

"目前没有任何已有模型能够有意义地完成这些任务。"

当然，这些数据是自报告的，还没有第三方验证。但即便打个折，这个差距也是数量级的。

翻译成人话就是：别人还在研究"怎么让AI回答得更快"，TML已经在研究"怎么让AI知道什么时候不该说话"。

技术参数可以慢慢验证，但TML这一步背后的战略意图，才是真正值得深思的。

1. 方向之争：Agent还是交互

整个AI行业正在全力冲向Agent（智能体）——让AI更自主、更独立、更像一个无需人类干预的"员工"。

但TML旗帜鲜明地提出了完全相反的观点：

AI不应该把人推出决策循环，而应该让人更容易留在循环里。

翁荔引用了哈耶克1945年的论述——真正有价值的知识是"特定时间和地点的具体情境知识"，这些知识存在于用户脑中，远超prompt能表达的范围。

要让这些知识流入AI的决策过程，唯一的办法就是把人机沟通的带宽拉到极致。

这不是在否定Agent，而是在说：在Agent真正值得信赖之前，"实时协作"比"自主执行"更重要。

2. 硬件之变：从"算力堆叠"到"延迟优先"

TML模型总参数276B，但活跃参数只有12B（MoE架构），还自研了大量推理优化kernel。

这说明什么？

实时交互场景对AI基础设施的需求，跟"把模型训大"完全不同。它不是比谁的卡多、谁的集群大，而是比谁能在200毫秒内完成一次完整的感知-推理-生成循环。

巧合的是，就在同一天，谷歌发布了训推解耦的第八代TPU。

整个行业的硬件思路正在转向——不是更强，而是更快、更省、更适配Agent时代的推理需求。

3. 创业公司的生存启示

TML的故事本身就很有戏剧性：

在经历了几乎"团灭"级别的人才流失后，这家公司依然交出了一个让整个行业侧目的产品。

这说明什么？

在AI竞赛里，最稀缺的资源不是算力、不是资金，而是一个清晰且有信念的技术方向。

AI的下一次范式跃迁，不在"更聪明"，而在"更自然"。

过去三年，AI行业的军备竞赛集中在参数规模、推理能力、Agent自主性上。但TML用一个产品证明了——

人和AI之间的交流方式本身，才是最大的瓶颈。

想象一下，当AI能像一个真正的同事那样——你说到一半它就懂了、你写代码时它主动提醒你有bug、你开会时它在后台默默搜索资料然后在恰当时机递给你——

这不再是"用AI"，而是"跟AI一起工作"。

当然，TML目前只是研究预览，离大规模商用还有距离。数据也是自报告的，需要更多第三方验证。长对话管理、网络依赖等问题也还没有解决。

但方向一旦被点亮，整个行业的追赶速度会比我们想象的快得多。

毕竟，当Uber的程序员们已经在4个月里烧光了全年AI预算的时候——AI不够"自然"导致的低效沟通和反复重试，才是更大的成本黑洞。

你觉得跟AI交流最让你抓狂的体验是什么？是等它回复的那几秒？还是它理解不了你的上下文？

欢迎在评论区说说你最想AI改进的一个交互痛点。点赞最高的留言，下期我们专门聊聊。

👇👇👇

关注「不装了科技」，每天一篇深度科技分析，带你看懂热点背后的逻辑。

不装，不吹，只说人话。

← 上一篇：AI赋能个体创业 | 吉利学院OPC校园宣讲圆满落幕下一篇：AI 决策失误谁买单？房产巨头百亿营收因算法崩塌 →