在线咨询

专属客服在线解答，提供专业解决方案

工单支持

专业技术支持团队，随时响应服务需求

首页博客正文

全双工交互模型TML-Interaction-Small：0.40秒轮次延迟，FD-bench 超 GPT 和 Gemini

2026-05-19

TOCCA

AI 情报局漫步1024

前 OpenAI CTO Mira Murati 在2025年2月创立Thinking Machines Lab，完成了20亿美金种子轮融资（1200亿美金估值），是历史上最大的种子轮之一。公司2025年10月发布了第一个产品Tinker（模型微调工具），此后保持低调。5月11日，他们拿出了第二个产品：TML-Interaction-Small。

这不是一个常规的语音模型更新。Thinking Machines把它定义为一种新的模型类别，“交互模型”（Interaction Model），并声称这是对当前语音AI主流架构的一次根本性改变。

一. 它和现有语音模型有什么不同

现有方案的结构性局限

目前几乎所有实时语音AI，包括GPT-Realtime-2和Gemini Live，本质上都是“请求-响应”结构。用户说完一段话，VAD（语音活动检测）判断停顿，模型开始推理，TTS合成输出。这条管道的每个环节都有优化空间，整个行业过去几年都在沿着这条路走。

这套架构有一个结构性问题：AI无法在用户说话时同时处理信息，必须等对方停下来。它不能在听到关键词时主动打断，也不知道什么时候该说、什么时候该保持沉默——这些判断交给了外部系统（VAD），而不是模型本身。

TML的架构选择

TML-Interaction-Small去掉了这个等待环节。据Thinking Machines官方博客披露，模型以200毫秒为单位做连续“微轮次”（micro-turn）处理，可以同时接收音频、视频、文本并持续输出，不依赖外部VAD或对话管理系统。“何时说话”的判断被内化到模型本身，而不是依赖外挂的端点检测模块。

底层采用“无编码器早期融合”（Encoder-Free Early Fusion）技术，将原始音频和视觉信号直接送入Transformer核心层处理，绕过了传统多模态架构里各模态先单独编码再融合的路径。

二. 数据

三项关键数字

0.40s

轮次延迟
（对比GPT-Realtime-2的1.18s）

77.8

FD-bench v1.5得分
（对比Gemini的54.3）

200ms

微轮次处理单位
（连续全双工）

模型	轮次延迟	FD-bench v1.5	架构
TML-Interaction-Small	0.40秒	77.8	全双工，200毫秒微轮次
Gemini 3.1 Flash Live	0.57秒	54.3	请求-响应
GPT-Realtime-2.0（精简版）	1.18秒	46.8	请求-响应

数据来源：Thinking Machines Lab官方博客（5月11日），均为自报数据，尚未经独立第三方验证。

两个专项测试更值得关注

FD-bench之外，Thinking Machines还设计了两个专门衡量“时机判断”的测试：

TimeSpeak 测试模型能否在用户指定的时间点准时开口

TML得分 64.7，第二名仅 4.3

CueSpeak 测试模型能否在语义合适的时机主动插话

TML得分 81.7，第二名仅 2.9

这两项测试衡量的不是“说了什么内容”，而是“什么时候说”。在日常对话里，回应时机的自然与否往往比内容本身更影响体验——说得对但总是慢半拍，或者抢话、插嘴，都会让对话感觉很别扭。这恰恰是现有实时语音模型普遍处理不好的地方。

FD-bench是什么，有什么局限

FD-bench（Full-Duplex Benchmark）专门设计用来衡量对话交互质量，测试包括用户打断、用户接话、背景噪声等场景下模型的行为是否自然。这和常规的模型能力评测（如推理、指令遵循）是两个维度。

需要指出的是，FD-bench上的领先不等于业务场景上的全面领先。eWeek分析指出，一个模型在交互质量基准上得分高，在具体客服或销售任务中的表现需要独立验证，不能直接划等号。当前所有数据均为Thinking Machines自行发布，没有外部机构复现。

三. 限制和现实

目前还不是公开产品

TechCrunch明确指出：“这是研究预览，不是产品。”限定研究预览计划在未来几个月内向部分合作方开放，更广泛的发布在2026年下半年。模型在极长会话中存在“上下文膨胀”问题，持续的视频数据流会填满上下文窗口。这在需要长时间连续监控的实际部署场景中是个实在的挑战。实际表现在嘈杂环境、多人场景、弱网条件下的数据，目前完全缺失。

一个背景信息： Thinking Machines在2026年1月经历了较大的人员动荡——联合创始人Barret Zoph和Luke Metz相继离开回归OpenAI。TML-Interaction-Small的发布，是公司在这段低谷后的首次重大技术亮相。数据令人印象深刻，但从研究预览到生产部署还有很长的路。

结语

VAD不一定是最终答案

过去几年，语音AI的工程实践基本都围绕一套固定管道：VAD检测停顿 → ASR转录 → LLM推理 → TTS合成。整个行业在沿着这条路优化，每个环节都有专精的供应商。

TML-Interaction-Small提出的问题是：如果把“何时说话”内化到模型本身，而不是交给外部VAD，会发生什么？Latent Space的分析把这描述为“请求-响应范式开始出现裂缝的时刻”。

裂缝不等于崩塌。三段式管道在成本、可控性、生产稳定性上仍有明确优势，短期内不会被替代。但如果TML-Interaction-Small在实际部署中验证了自己的指标，语音AI的技术选型将多出一个真正不同的选项。

Thinking Machines的第二张牌

第一个产品Tinker解决的是模型微调问题，TML-Interaction-Small解决的是实时交互问题。两个产品放在一起，能看出Thinking Machines押注的方向：让AI系统更容易被定制（Tinker），同时在交互体验上达到人类对话的流畅度（Interaction Model）。

Mira Murati在创立这家公司时说过，目标是让AI“更广泛地被理解、可定制、整体上更有能力”。TML-Interaction-Small是这个方向上目前最具体的技术表态。至于它能不能兑现承诺，要等下半年更广泛的发布之后才能真正评判。

参考来源：

Thinking Machines Lab -《Interaction Models: A Scalable Approach to Human-AI Collaboration》

TechCrunch -《Thinking Machines wants to build an AI that actually listens while it talks》

在声网，连接无限可能

想进一步了解「对话式 AI 与实时互动」？欢迎注册，开启探索之旅。

注册体验

本博客为技术交流与平台行业信息分享平台，内容仅供交流参考，文章内容不代表本公司立场和观点，亦不构成任何出版或销售行为。