前 OpenAI CTO Mira Murati 在2025年2月创立Thinking Machines Lab,完成了20亿美金种子轮融资(1200亿美金估值),是历史上最大的种子轮之一。公司2025年10月发布了第一个产品Tinker(模型微调工具),此后保持低调。5月11日,他们拿出了第二个产品:TML-Interaction-Small。
这不是一个常规的语音模型更新。Thinking Machines把它定义为一种新的模型类别,“交互模型”(Interaction Model),并声称这是对当前语音AI主流架构的一次根本性改变。
一. 它和现有语音模型有什么不同
现有方案的结构性局限
目前几乎所有实时语音AI,包括GPT-Realtime-2和Gemini Live,本质上都是“请求-响应”结构。用户说完一段话,VAD(语音活动检测)判断停顿,模型开始推理,TTS合成输出。这条管道的每个环节都有优化空间,整个行业过去几年都在沿着这条路走。
这套架构有一个结构性问题:AI无法在用户说话时同时处理信息,必须等对方停下来。它不能在听到关键词时主动打断,也不知道什么时候该说、什么时候该保持沉默——这些判断交给了外部系统(VAD),而不是模型本身。
TML的架构选择
TML-Interaction-Small去掉了这个等待环节。据Thinking Machines官方博客披露,模型以200毫秒为单位做连续“微轮次”(micro-turn)处理,可以同时接收音频、视频、文本并持续输出,不依赖外部VAD或对话管理系统。“何时说话”的判断被内化到模型本身,而不是依赖外挂的端点检测模块。
底层采用“无编码器早期融合”(Encoder-Free Early Fusion)技术,将原始音频和视觉信号直接送入Transformer核心层处理,绕过了传统多模态架构里各模态先单独编码再融合的路径。
二. 数据
三项关键数字
(对比GPT-Realtime-2的1.18s)
(对比Gemini的54.3)
(连续全双工)
| 模型 | 轮次延迟 | FD-bench v1.5 | 架构 |
|---|---|---|---|
| TML-Interaction-Small | 0.40秒 | 77.8 | 全双工,200毫秒微轮次 |
| Gemini 3.1 Flash Live | 0.57秒 | 54.3 | 请求-响应 |
| GPT-Realtime-2.0(精简版) | 1.18秒 | 46.8 | 请求-响应 |
数据来源:Thinking Machines Lab官方博客(5月11日),均为自报数据,尚未经独立第三方验证。
两个专项测试更值得关注
FD-bench之外,Thinking Machines还设计了两个专门衡量“时机判断”的测试:
TimeSpeak 测试模型能否在用户指定的时间点准时开口
TML得分 64.7,第二名仅 4.3
CueSpeak 测试模型能否在语义合适的时机主动插话
TML得分 81.7,第二名仅 2.9
这两项测试衡量的不是“说了什么内容”,而是“什么时候说”。在日常对话里,回应时机的自然与否往往比内容本身更影响体验——说得对但总是慢半拍,或者抢话、插嘴,都会让对话感觉很别扭。这恰恰是现有实时语音模型普遍处理不好的地方。
FD-bench是什么,有什么局限
FD-bench(Full-Duplex Benchmark)专门设计用来衡量对话交互质量,测试包括用户打断、用户接话、背景噪声等场景下模型的行为是否自然。这和常规的模型能力评测(如推理、指令遵循)是两个维度。
需要指出的是,FD-bench上的领先不等于业务场景上的全面领先。eWeek分析指出,一个模型在交互质量基准上得分高,在具体客服或销售任务中的表现需要独立验证,不能直接划等号。当前所有数据均为Thinking Machines自行发布,没有外部机构复现。
三. 限制和现实
目前还不是公开产品
TechCrunch明确指出:“这是研究预览,不是产品。”限定研究预览计划在未来几个月内向部分合作方开放,更广泛的发布在2026年下半年。模型在极长会话中存在“上下文膨胀”问题,持续的视频数据流会填满上下文窗口。这在需要长时间连续监控的实际部署场景中是个实在的挑战。实际表现在嘈杂环境、多人场景、弱网条件下的数据,目前完全缺失。
结语
VAD不一定是最终答案
过去几年,语音AI的工程实践基本都围绕一套固定管道:VAD检测停顿 → ASR转录 → LLM推理 → TTS合成。整个行业在沿着这条路优化,每个环节都有专精的供应商。
TML-Interaction-Small提出的问题是:如果把“何时说话”内化到模型本身,而不是交给外部VAD,会发生什么?Latent Space的分析把这描述为“请求-响应范式开始出现裂缝的时刻”。
裂缝不等于崩塌。三段式管道在成本、可控性、生产稳定性上仍有明确优势,短期内不会被替代。但如果TML-Interaction-Small在实际部署中验证了自己的指标,语音AI的技术选型将多出一个真正不同的选项。
Thinking Machines的第二张牌
第一个产品Tinker解决的是模型微调问题,TML-Interaction-Small解决的是实时交互问题。两个产品放在一起,能看出Thinking Machines押注的方向:让AI系统更容易被定制(Tinker),同时在交互体验上达到人类对话的流畅度(Interaction Model)。
Mira Murati在创立这家公司时说过,目标是让AI“更广泛地被理解、可定制、整体上更有能力”。TML-Interaction-Small是这个方向上目前最具体的技术表态。至于它能不能兑现承诺,要等下半年更广泛的发布之后才能真正评判。
参考来源:
Thinking Machines Lab -《Interaction Models: A Scalable Approach to Human-AI Collaboration》
TechCrunch -《Thinking Machines wants to build an AI that actually listens while it talks》