标签

实时交互AI时代来临:前OpenAI CTO重塑人机对话方式

发布时间:2026-05-13 12:08来源:微信阅读:6

你是否曾有过这样的经历——

与AI对话时,你说完一句话,它需要"思考"好几秒才能噼里啪啦回一大段。想中途插话?抱歉,它听不见。想补充信息?等它讲完再开口。

这感觉就像在用对讲机跟一个天才沟通——你按住说话,松开等待;对方按住说话,松开等待。

明明已经2026年了,人类与AI的互动方式竟然还停留在"回合制"阶段。

直到昨天,一家沉寂了18个月的公司,终于亮出了底牌。

5月11日,Thinking Machines Lab(以下简称TML)发布了公司成立以来的首款模型——TML-Interaction-Small。

这家公司的背景非同寻常:

创始人是前OpenAI首席技术官Mira Murati,也就是主导ChatGPT、DALL-E、Sora开发的那位女性。2024年9月离开OpenAI,2025年2月创立TML。

联合创始团队堪称AI领域的"复仇者联盟"——

OpenAI联合创始人John Schulman、前研究副总裁翁荔(Lilian Weng)、前研究副总裁Barrett Zoph……

成立仅5个月,就斩获20亿美元种子轮融资,由a16z领投,英伟达、AMD跟投,估值高达120亿美元。

要知道,当时他们连一个产品影子都没有。

如今,18个月已过,这个"史上最贵种子轮"的答卷终于揭晓。

而它带来的成果,可能比大多数人预期的更具颠覆性。

先说结论:TML完成了一件所有大厂都没能实现的事——让AI"边听边说"。

"回合制"究竟是什么问题?

目前所有主流AI,无论是GPT、Gemini还是Claude,都采用回合制交互:

在AI回复你的那几秒钟里,它对外界完全"失聪失明"。你的新指令、你的表情变化、你指的方向——它统统无法感知。

业界目前怎么应对?

答案是打补丁——在大模型外面套一层VAD(语音活动检测),强行塞入实时场景。

就像给一个不会游泳的人绑上游泳圈,看着能浮,但永远学不会游泳。

TML的解决方案:200毫秒"微回合"

TML的思路完全不同。

它把时间切分成每200毫秒一个单位,在每个单位内同时处理输入和生成输出。

200毫秒是什么概念?大约是人类从听到声音到开口反应的最短自然窗口。

具体来看:

而且,音频、视频、文本三种模态从零开始进行联合训练——

声音里的笑意、画面里的表情、文字里的犹豫,模型在同一层就能捕捉到。

这不是在旧架构上打补丁,而是从底层重写了"AI怎么跟人交流"这件事。

光说概念没用,看数据。

TML在论文里给出了与GPT-Realtime-2.0和Gemini的正面对比:

交互质量评分(FD-bench V1.5):

TML:77.8分

响应延迟:

TML:0.40秒

GPT-Realtime-2.0:1.18秒

Gemini-3.1-flash-live:0.57秒

主动开口能力(TimeSpeak/CueSpeak):

你没看错,在"AI什么时候该主动说话"这件事上,TML领先GPT十几倍。

TML官方直言:

"目前没有任何已有模型能够有意义地完成这些任务。"

当然,这些数据是自报告的,还没有第三方验证。但即便打个折,这个差距也是数量级的。

翻译成人话就是:别人还在研究"怎么让AI回答得更快",TML已经在研究"怎么让AI知道什么时候不该说话"。

技术参数可以慢慢验证,但TML这一步背后的战略意图,才是真正值得深思的。

1. 方向之争:Agent还是交互

整个AI行业正在全力冲向Agent(智能体)——让AI更自主、更独立、更像一个无需人类干预的"员工"。

但TML旗帜鲜明地提出了完全相反的观点:

AI不应该把人推出决策循环,而应该让人更容易留在循环里。

翁荔引用了哈耶克1945年的论述——真正有价值的知识是"特定时间和地点的具体情境知识",这些知识存在于用户脑中,远超prompt能表达的范围。

要让这些知识流入AI的决策过程,唯一的办法就是把人机沟通的带宽拉到极致。

这不是在否定Agent,而是在说:在Agent真正值得信赖之前,"实时协作"比"自主执行"更重要。

2. 硬件之变:从"算力堆叠"到"延迟优先"

TML模型总参数276B,但活跃参数只有12B(MoE架构),还自研了大量推理优化kernel。

这说明什么?

实时交互场景对AI基础设施的需求,跟"把模型训大"完全不同。它不是比谁的卡多、谁的集群大,而是比谁能在200毫秒内完成一次完整的感知-推理-生成循环。

巧合的是,就在同一天,谷歌发布了训推解耦的第八代TPU。

整个行业的硬件思路正在转向——不是更强,而是更快、更省、更适配Agent时代的推理需求。

3. 创业公司的生存启示

TML的故事本身就很有戏剧性:

在经历了几乎"团灭"级别的人才流失后,这家公司依然交出了一个让整个行业侧目的产品。

这说明什么?

在AI竞赛里,最稀缺的资源不是算力、不是资金,而是一个清晰且有信念的技术方向。

AI的下一次范式跃迁,不在"更聪明",而在"更自然"。

过去三年,AI行业的军备竞赛集中在参数规模、推理能力、Agent自主性上。但TML用一个产品证明了——

人和AI之间的交流方式本身,才是最大的瓶颈。

想象一下,当AI能像一个真正的同事那样——你说到一半它就懂了、你写代码时它主动提醒你有bug、你开会时它在后台默默搜索资料然后在恰当时机递给你——

这不再是"用AI",而是"跟AI一起工作"。

当然,TML目前只是研究预览,离大规模商用还有距离。数据也是自报告的,需要更多第三方验证。长对话管理、网络依赖等问题也还没有解决。

但方向一旦被点亮,整个行业的追赶速度会比我们想象的快得多。

毕竟,当Uber的程序员们已经在4个月里烧光了全年AI预算的时候——AI不够"自然"导致的低效沟通和反复重试,才是更大的成本黑洞。

你觉得跟AI交流最让你抓狂的体验是什么?是等它回复的那几秒?还是它理解不了你的上下文?

欢迎在评论区说说你最想AI改进的一个交互痛点。点赞最高的留言,下期我们专门聊聊。

👇👇👇

关注「不装了科技」,每天一篇深度科技分析,带你看懂热点背后的逻辑。

不装,不吹,只说人话。