在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验

全双工交互模型TML-Interaction-Small:0.40秒轮次延迟,FD-bench 超 GPT 和 Gemini

前 OpenAI CTO Mira Murati 在2025年2月创立Thinking Machines Lab,完成了20亿美金种子轮融资(1200亿美金估值),是历史上最大的种子轮之一。公司2025年10月发布了第一个产品Tinker(模型微调工具),此后保持低调。5月11日,他们拿出了第二个产品:TML-Interaction-Small。

这不是一个常规的语音模型更新。Thinking Machines把它定义为一种新的模型类别,“交互模型”(Interaction Model),并声称这是对当前语音AI主流架构的一次根本性改变。


一. 它和现有语音模型有什么不同

现有方案的结构性局限

目前几乎所有实时语音AI,包括GPT-Realtime-2和Gemini Live,本质上都是“请求-响应”结构。用户说完一段话,VAD(语音活动检测)判断停顿,模型开始推理,TTS合成输出。这条管道的每个环节都有优化空间,整个行业过去几年都在沿着这条路走。

这套架构有一个结构性问题:AI无法在用户说话时同时处理信息,必须等对方停下来。它不能在听到关键词时主动打断,也不知道什么时候该说、什么时候该保持沉默——这些判断交给了外部系统(VAD),而不是模型本身。

TML的架构选择

TML-Interaction-Small去掉了这个等待环节。据Thinking Machines官方博客披露,模型以200毫秒为单位做连续“微轮次”(micro-turn)处理,可以同时接收音频、视频、文本并持续输出,不依赖外部VAD或对话管理系统。“何时说话”的判断被内化到模型本身,而不是依赖外挂的端点检测模块。

底层采用“无编码器早期融合”(Encoder-Free Early Fusion)技术,将原始音频和视觉信号直接送入Transformer核心层处理,绕过了传统多模态架构里各模态先单独编码再融合的路径。


二. 数据

三项关键数字

0.40s
轮次延迟
(对比GPT-Realtime-2的1.18s)
77.8
FD-bench v1.5得分
(对比Gemini的54.3)
200ms
微轮次处理单位
(连续全双工)
模型 轮次延迟 FD-bench v1.5 架构
TML-Interaction-Small 0.40秒 77.8 全双工,200毫秒微轮次
Gemini 3.1 Flash Live 0.57秒 54.3 请求-响应
GPT-Realtime-2.0(精简版) 1.18秒 46.8 请求-响应

数据来源:Thinking Machines Lab官方博客(5月11日),均为自报数据,尚未经独立第三方验证。

两个专项测试更值得关注

FD-bench之外,Thinking Machines还设计了两个专门衡量“时机判断”的测试:

TimeSpeak  测试模型能否在用户指定的时间点准时开口

TML得分 64.7,第二名仅 4.3

CueSpeak  测试模型能否在语义合适的时机主动插话

TML得分 81.7,第二名仅 2.9

这两项测试衡量的不是“说了什么内容”,而是“什么时候说”。在日常对话里,回应时机的自然与否往往比内容本身更影响体验——说得对但总是慢半拍,或者抢话、插嘴,都会让对话感觉很别扭。这恰恰是现有实时语音模型普遍处理不好的地方。

FD-bench是什么,有什么局限

FD-bench(Full-Duplex Benchmark)专门设计用来衡量对话交互质量,测试包括用户打断、用户接话、背景噪声等场景下模型的行为是否自然。这和常规的模型能力评测(如推理、指令遵循)是两个维度。

需要指出的是,FD-bench上的领先不等于业务场景上的全面领先。eWeek分析指出,一个模型在交互质量基准上得分高,在具体客服或销售任务中的表现需要独立验证,不能直接划等号。当前所有数据均为Thinking Machines自行发布,没有外部机构复现。


三. 限制和现实

目前还不是公开产品

TechCrunch明确指出:“这是研究预览,不是产品。”限定研究预览计划在未来几个月内向部分合作方开放,更广泛的发布在2026年下半年。模型在极长会话中存在“上下文膨胀”问题,持续的视频数据流会填满上下文窗口。这在需要长时间连续监控的实际部署场景中是个实在的挑战。实际表现在嘈杂环境、多人场景、弱网条件下的数据,目前完全缺失。

一个背景信息: Thinking Machines在2026年1月经历了较大的人员动荡——联合创始人Barret Zoph和Luke Metz相继离开回归OpenAI。TML-Interaction-Small的发布,是公司在这段低谷后的首次重大技术亮相。数据令人印象深刻,但从研究预览到生产部署还有很长的路。

结语

VAD不一定是最终答案

过去几年,语音AI的工程实践基本都围绕一套固定管道:VAD检测停顿 → ASR转录 → LLM推理 → TTS合成。整个行业在沿着这条路优化,每个环节都有专精的供应商。

TML-Interaction-Small提出的问题是:如果把“何时说话”内化到模型本身,而不是交给外部VAD,会发生什么?Latent Space的分析把这描述为“请求-响应范式开始出现裂缝的时刻”。

裂缝不等于崩塌。三段式管道在成本、可控性、生产稳定性上仍有明确优势,短期内不会被替代。但如果TML-Interaction-Small在实际部署中验证了自己的指标,语音AI的技术选型将多出一个真正不同的选项。

Thinking Machines的第二张牌

第一个产品Tinker解决的是模型微调问题,TML-Interaction-Small解决的是实时交互问题。两个产品放在一起,能看出Thinking Machines押注的方向:让AI系统更容易被定制(Tinker),同时在交互体验上达到人类对话的流畅度(Interaction Model)。

Mira Murati在创立这家公司时说过,目标是让AI“更广泛地被理解、可定制、整体上更有能力”。TML-Interaction-Small是这个方向上目前最具体的技术表态。至于它能不能兑现承诺,要等下半年更广泛的发布之后才能真正评判。


参考来源:

Thinking Machines Lab -《Interaction Models: A Scalable Approach to Human-AI Collaboration》

TechCrunch -《Thinking Machines wants to build an AI that actually listens while it talks》

在声网,连接无限可能

想进一步了解「对话式 AI 与 实时互动」?欢迎注册,开启探索之旅。

本博客为技术交流与平台行业信息分享平台,内容仅供交流参考,文章内容不代表本公司立场和观点,亦不构成任何出版或销售行为。