实时交互AI时代来临:前OpenAI CTO重塑人机对话方式
你是否曾有过这样的经历——
与AI对话时,你说完一句话,它需要"思考"好几秒才能噼里啪啦回一大段。想中途插话?抱歉,它听不见。想补充信息?等它讲完再开口。
这感觉就像在用对讲机跟一个天才沟通——你按住说话,松开等待;对方按住说话,松开等待。
明明已经2026年了,人类与AI的互动方式竟然还停留在"回合制"阶段。
直到昨天,一家沉寂了18个月的公司,终于亮出了底牌。
5月11日,Thinking Machines Lab(以下简称TML)发布了公司成立以来的首款模型——TML-Interaction-Small。
这家公司的背景非同寻常:
创始人是前OpenAI首席技术官Mira Murati,也就是主导ChatGPT、DALL-E、Sora开发的那位女性。2024年9月离开OpenAI,2025年2月创立TML。
联合创始团队堪称AI领域的"复仇者联盟"——
OpenAI联合创始人John Schulman、前研究副总裁翁荔(Lilian Weng)、前研究副总裁Barrett Zoph……
成立仅5个月,就斩获20亿美元种子轮融资,由a16z领投,英伟达、AMD跟投,估值高达120亿美元。
要知道,当时他们连一个产品影子都没有。
如今,18个月已过,这个"史上最贵种子轮"的答卷终于揭晓。
而它带来的成果,可能比大多数人预期的更具颠覆性。
先说结论:TML完成了一件所有大厂都没能实现的事——让AI"边听边说"。
"回合制"究竟是什么问题?
目前所有主流AI,无论是GPT、Gemini还是Claude,都采用回合制交互:
在AI回复你的那几秒钟里,它对外界完全"失聪失明"。你的新指令、你的表情变化、你指的方向——它统统无法感知。
业界目前怎么应对?
答案是打补丁——在大模型外面套一层VAD(语音活动检测),强行塞入实时场景。
就像给一个不会游泳的人绑上游泳圈,看着能浮,但永远学不会游泳。
TML的解决方案:200毫秒"微回合"
TML的思路完全不同。
它把时间切分成每200毫秒一个单位,在每个单位内同时处理输入和生成输出。
200毫秒是什么概念?大约是人类从听到声音到开口反应的最短自然窗口。
具体来看:
而且,音频、视频、文本三种模态从零开始进行联合训练——
声音里的笑意、画面里的表情、文字里的犹豫,模型在同一层就能捕捉到。
这不是在旧架构上打补丁,而是从底层重写了"AI怎么跟人交流"这件事。
光说概念没用,看数据。
TML在论文里给出了与GPT-Realtime-2.0和Gemini的正面对比:
交互质量评分(FD-bench V1.5):
TML:77.8分
响应延迟:
TML:0.40秒
GPT-Realtime-2.0:1.18秒
Gemini-3.1-flash-live:0.57秒
主动开口能力(TimeSpeak/CueSpeak):
你没看错,在"AI什么时候该主动说话"这件事上,TML领先GPT十几倍。
TML官方直言:
"目前没有任何已有模型能够有意义地完成这些任务。"
当然,这些数据是自报告的,还没有第三方验证。但即便打个折,这个差距也是数量级的。
翻译成人话就是:别人还在研究"怎么让AI回答得更快",TML已经在研究"怎么让AI知道什么时候不该说话"。
技术参数可以慢慢验证,但TML这一步背后的战略意图,才是真正值得深思的。
1. 方向之争:Agent还是交互
整个AI行业正在全力冲向Agent(智能体)——让AI更自主、更独立、更像一个无需人类干预的"员工"。
但TML旗帜鲜明地提出了完全相反的观点:
AI不应该把人推出决策循环,而应该让人更容易留在循环里。
翁荔引用了哈耶克1945年的论述——真正有价值的知识是"特定时间和地点的具体情境知识",这些知识存在于用户脑中,远超prompt能表达的范围。
要让这些知识流入AI的决策过程,唯一的办法就是把人机沟通的带宽拉到极致。
这不是在否定Agent,而是在说:在Agent真正值得信赖之前,"实时协作"比"自主执行"更重要。
2. 硬件之变:从"算力堆叠"到"延迟优先"
TML模型总参数276B,但活跃参数只有12B(MoE架构),还自研了大量推理优化kernel。
这说明什么?
实时交互场景对AI基础设施的需求,跟"把模型训大"完全不同。它不是比谁的卡多、谁的集群大,而是比谁能在200毫秒内完成一次完整的感知-推理-生成循环。
巧合的是,就在同一天,谷歌发布了训推解耦的第八代TPU。
整个行业的硬件思路正在转向——不是更强,而是更快、更省、更适配Agent时代的推理需求。
3. 创业公司的生存启示
TML的故事本身就很有戏剧性:
在经历了几乎"团灭"级别的人才流失后,这家公司依然交出了一个让整个行业侧目的产品。
这说明什么?
在AI竞赛里,最稀缺的资源不是算力、不是资金,而是一个清晰且有信念的技术方向。
AI的下一次范式跃迁,不在"更聪明",而在"更自然"。
过去三年,AI行业的军备竞赛集中在参数规模、推理能力、Agent自主性上。但TML用一个产品证明了——
人和AI之间的交流方式本身,才是最大的瓶颈。
想象一下,当AI能像一个真正的同事那样——你说到一半它就懂了、你写代码时它主动提醒你有bug、你开会时它在后台默默搜索资料然后在恰当时机递给你——
这不再是"用AI",而是"跟AI一起工作"。
当然,TML目前只是研究预览,离大规模商用还有距离。数据也是自报告的,需要更多第三方验证。长对话管理、网络依赖等问题也还没有解决。
但方向一旦被点亮,整个行业的追赶速度会比我们想象的快得多。
毕竟,当Uber的程序员们已经在4个月里烧光了全年AI预算的时候——AI不够"自然"导致的低效沟通和反复重试,才是更大的成本黑洞。
你觉得跟AI交流最让你抓狂的体验是什么?是等它回复的那几秒?还是它理解不了你的上下文?
欢迎在评论区说说你最想AI改进的一个交互痛点。点赞最高的留言,下期我们专门聊聊。
👇👇👇
关注「不装了科技」,每天一篇深度科技分析,带你看懂热点背后的逻辑。
不装,不吹,只说人话。