2026年上半年,语音AI经历了过去几年里变化最密集的六个月。OpenAI、Google、微软、苹果在同一时间窗口里相继发布了对行业格局有实质影响的产品,Thinking Machines Lab这样的新玩家也带着真正不同的技术路线登场。
这篇文章梳理其中最值得记录的8个事件,把这8件事放在一起看,可以发现:各家正在把语音能力下沉到各自平台的底层,语音AI正在从产品变成平台层的基础设施层。

一. GPT-Realtime-2:推理能力第一次进入语音对话
2026年5月7日,OpenAI API发布
5月7日,OpenAI通过Realtime API发布了三款新的音频模型,其中GPT-Realtime-2是核心。这是OpenAI第一款在实时语音场景中引入GPT-5级推理能力的模型,上下文窗口从前代的32K token扩展至128K token。
此前的实时语音模型普遍存在一个问题:模型在通话中遇到需要思考的问题时,要么沉默,要么草率回答。GPT-Realtime-2加入了可配置的推理强度(从minimal到xhigh),并支持在说话的同时并行调用外部工具,可以口头说一句”let me check that”来过渡,而不是让对话陷入尴尬的停顿。
随这次发布一起上线的还有GPT-Realtime-Translate(支持70+种语言输入、13种语言输出的流式语音翻译)和GPT-Realtime-Whisper(低延迟流式语音转文字)。定价方面,GPT-Realtime-2的音频输入$32/百万token,音频输出$64/百万token。
发布时同步公布了两个生产部署数据:Zillow在对抗性基准测试中通话成功率从69%提升至95%;Glean的帮助率提升42.9%。这类具体数字在OpenAI的发布里并不常见,说明他们对这次发布的商业验证有一定信心。
二. Gemini 3.5 Flash + Live API:Google在I/O 2026重新确立语音AI位置
2026年5月19日,Google I/O 2026发布
Google I/O 2026(5月19日)上,Gemini 3.5 Flash正式发布并当日GA。模型定价$1.50/百万输入token、$9/百万输出token,1M token上下文窗口,输出吞吐量据Google官方称是同类旗舰模型的4倍。
语音侧的核心发布是Live API的全面开放,以及同步上线的Native Voice Support(原生语音支持)。Live API基于全双工WebSocket架构,支持Proactive Audio(由模型主动发起对话)、自动语言检测、实时多语言翻译。Gemini Live还新增了与文字输入的无缝切换。与此同时,Gemini 3.5 Live Translate也在I/O上亮相,支持70+语言的流式语音翻译,并已集成进Google Meet。
值得单独提一下的是Project Astra在这次发布中的定位更新:支持在说话时同时忽略背景噪声和无关对话、用多个工具完成连续任务,设计目标是通过一次连续交互完成多项任务,而不要求用户反复重新发出指令。
Android XR智能眼镜(秋季出货)也在这次I/O上确认,支持镜片内实时翻译字幕,只有佩戴者自己能看到。
三. TML-Interaction-Small:全双工交互模型,FD-bench得分77.8
2026年5月11日,Thinking Machines Lab发布研究预览
前OpenAI CTO Mira Murati创立的Thinking Machines Lab于5月11日发布TML-Interaction-Small,定义了一个新的模型类别:交互模型(Interaction Model)。
与现有实时语音模型的核心差异是架构层面的。GPT-Realtime-2和Gemini Live都仍是”请求-响应”结构,等用户停顿后再开始推理输出。TML-Interaction-Small以200毫秒为单位做连续”微轮次”处理,可以同时接收和输出音频,不依赖外部VAD(语音活动检测)或独立的对话管理系统,”何时说话”的判断内化在模型本身。底层采用无编码器早期融合(Encoder-Free Early Fusion)技术,将原始音频和视觉信号直接送入Transformer核心层处理。
在FD-bench v1.5(Full-Duplex Benchmark,专门衡量对话交互质量)上,TML-Interaction-Small得分77.8,Gemini 3.1 Flash Live得分54.3,GPT-Realtime-2得分46.8。端到端轮次延迟0.40秒,Gemini为0.57秒,GPT-Realtime-2为1.18秒。两个专项测试里,TimeSpeak(测模型能否在用户指定时间点开口)TML得64.7、第二名4.3,CueSpeak(测语义合适时机主动插话)TML得81.7、第二名2.9。
有几点需要同时说清楚:所有数据均为Thinking Machines自报,未经第三方验证;eWeek等媒体指出FD-bench得分高不等于业务场景表现优;模型在长会话中存在”上下文膨胀”问题;目前仍是研究预览,广泛发布计划在2026年下半年。Thinking Machines Lab此前在2026年1月经历了联合创始人Barret Zoph和Luke Metz回归OpenAI的人员波动,这是他们此后的首次重大技术亮相。
四. Sesame iOS公测:语音AI消费端的第一个百万用户验证
2026年5月28日,iOS应用公测上线39国
Sesame(Oculus联合创始人Brendan Iribe和Ankit Kumar创立)于5月28日发布iOS应用公测版,开放39个国家。在此之前,研究预览阶段仅凭Maya和Miles两个AI语音角色,数周内吸引了100万+用户。公测版新增了四个具有独特声音、个性、观点和持久记忆的Agent:Maya、Miles、Simone、Charlie。
Sesame的技术主张是:AI在说话的同时并行运行多次搜索,将实时信息织入对话,而不是等信息获取完成后再开口。这个设计针对的是”快速回复但浅薄”和”深度但迟缓”之间长期存在的矛盾。
公司已完成$2.5亿B轮融资(Sequoia领投),Android版计划稍后推出,面向智能眼镜形态的版本计划2027年发布。
Sesame目前还没有直接的商业路径披露,产品仍在免费阶段积累用户。100万用户这个数字更多说明的是:具有流畅个性和持久记忆的语音AI对普通用户有真实吸引力,不只是开发者或企业在试验。
五. 微软MAI完整语音栈:7款自研模型,”从零开始训练”
2026年6月2日,Microsoft Build 2026发布
Microsoft Build 2026(6月2日)上,微软一次性发布了7款MAI自研模型,其中语音相关的两款是:
MAI-Transcribe-1.5:前代MAI-Transcribe-1(4月发布,25语言)的升级版,语言覆盖扩展至43语言,新增自动语言检测,采用MoE(混合专家)架构。据微软官方称,转录速度约为竞品的5倍,1小时音频可在15秒内完成转录,词错误率2.4%,定价$0.36/小时(与前代相同)。正在集成进Copilot、Teams、GitHub和Dynamics 365联络中心。
MAI-Voice-2:MAI-Voice-1(4月,仅支持英语)的重大升级,语言覆盖扩展至15+语言(德语、澳式/美式英语、西班牙语、法语、印地语、印尼语、意大利语、日语、韩语、荷兰语、葡萄牙语、土耳其语、越南语、中文),情感范围新增愤怒、困惑、尴尬、欢乐、耳语。同步发布MAI-Voice-2-Flash变体,专为超低延迟语音Agent场景设计。
微软官方对这批模型的声明是:”从零开始构建,基于干净授权数据集,不进行第三方模型蒸馏。”WindowsForum的分析把这次Build概括为”微软AI战略真正成为一个完整技术栈”的节点——它仍会用OpenAI处理需要前沿推理的工作负载,但语音、图像、转录、编码这些高频高量场景,现在有了自研选项。
六. Azure Speech Voice Live GA:单API整合语音Agent全链路
2026年6月2日,Microsoft Build 2026正式可用
与MAI模型同日,Azure Speech Voice Live API在Build 2026正式GA(全面可用)。这个API把STT(语音转文字)、TTS(文字转语音)、轮次检测、打断处理、Avatar、Agent编排、知识库、记忆、企业治理和可观测性全部放在一个开发工作流里。Hosted Agents with Voice Live(托管版,含Agent编排)进入Public Preview。
发布会引用了Optimal Blue(抵押定价平台)的案例:他们用Photo Avatar和Azure Speech服务构建了面向用户的”虚拟经济学家”交互界面,不再只是一个数据接口。
Voice Live GA的意义在于,它代表了和OpenAI Realtime API、Google Gemini Live相似的产品方向:用一个API替代开发者自行搭建STT→LLM→TTS三段式管道,把延迟优化、轮次管理、打断处理的工程成本收归平台侧。三家巨头在同一时间窗口推出这类产品,本身就是一个行业信号。
七. Project Solara:微软的语音驱动企业可穿戴平台
2026年6月2日,Microsoft Build 2026发布
Build 2026上还发布了Project Solara,一个基于AOSP的”Agent优先”芯片到云设备平台,专为企业可穿戴和桌面设备设计。两款参考硬件设计:
智能工牌:5G连接,四麦克风阵列+波束成形,摄像头,触摸屏,按下即录制并触发转录。
桌面Hub:声控激活,人脸识别,可接显示器变成云Windows。
Build演示显示设备可从耳语中检测用户意图,触发云查询,并在500ms内完成语音合成响应(其中网络往返占大部分时间)。Solara SDK预计2026年7月启动私测,面向仓储、医疗、现场服务等场景;Accenture和DHL已确认试点,第三方设备GA计划在2027年。
Project Solara把”语音是边缘企业设备的主要交互界面”这件事具体化了。500ms端到端响应在无屏幕的嘈杂现场环境里意味着什么,要等实际部署数据出来才能判断。
八. Apple Siri AI重建:Gemini驱动,iOS 27开放第三方AI Extensions
2026年6月8日,Apple WWDC 2026发布
6月8日,Tim Cook在卸任前最后一次WWDC主题演讲上发布了重建后的Siri AI。这是Siri十五年来最重要的架构改变。
新Siri采用三层路由架构:简单指令(设定计时器、控制智能家居)全程在设备端处理,由苹果自研小型神经网络模型完成,数据不离开iPhone;中等复杂度请求交给Apple Private Cloud Compute,运行在密封定制Apple Silicon节点上,无状态临时计算;最复杂的查询路由到Google Cloud上的Nvidia B200 GPU,驱动的是Google为苹果定制的1.2万亿参数Gemini模型。据Bloomberg报道,苹果为此向Google支付约$10亿/年授权费,协议跨多年。
新Siri支持多轮对话、语音+文字双输入,推出专属Siri应用(iMessage风格界面),对话历史通过iCloud跨设备同步,可调取邮件、日历、照片等个人上下文给出个人化回答。
与此同时,iOS 27引入Extensions框架,允许用户在设置里把Claude、Gemini或ChatGPT设置为默认AI助手,替代Siri处理Apple Intelligence的全部系统功能(Writing Tools、Image Playground、Siri对话)。这是苹果十年来第一次开放AI助手竞争接口。App Store将开设专属Extensions区域,首批确认合作的是Claude(Anthropic)和Gemini,加上已有的ChatGPT。
Siri AI和iOS 27 Extensions均不在欧盟和中国首发,原因分别是DMA法规合规问题和本地监管要求。全功能需iPhone 17 Pro/Max或iPhone Air,正式版随iOS 27在今年秋天推出,灰度上线。
九. 下半年值得关注的几件事
苹果HomeOS和智能眼镜
WWDC 2026上还有一个发布没有在本文的主线里展开:苹果HomeOS的开发者预览。HomeOS针对家庭场景的语音控制中心,配合Android XR眼镜的秋季出货(实时翻译字幕),苹果在硬件层面的语音AI布局开始清晰。
Project Solara SDK私测和第三方设备
微软的Solara SDK计划7月启动私测,Accenture和DHL的实际部署数据预计在年底前会有初步反馈。企业边缘设备上的语音Agent能不能在实际仓储/医疗/现场环境里稳定工作,是比演示更重要的验证。
EU AI Act第50条执法:8月2日生效
欧盟AI法案第50条(关于深度伪造和AI交互透明度的义务)将于8月2日开始执行,要求企业披露AI生成内容并获取用户同意。合成语音领域受此影响直接,ElevenLabs已于6月加入SynthID水印体系(通过Google发布),OpenAI同期也接入。对语音AI产品来说,水印标注和透明度披露在8月后从”可选”变成欧盟范围内的法律要求。
Gemini 3.5 Pro
Sundar Pichai在I/O 2026上明确表示”我们正在努力推进3.5 Pro,内部已经在使用,期待下个月推出”——”下个月”指6月。截至本文发布,Gemini 3.5 Pro尚未公开发布,但按照Google的公开表态,时间窗口就在这个月内。Gemini 3.5 Flash已经在Terminal-Bench 2.1上超越了Gemini 3.1 Pro,如果Pro延续这一差距,语音和Agent领域的能力对比将再次被刷新。
六个月里,语音AI出现在了三类地方:平台的底层(Siri、Teams、Copilot)、独立的消费产品(Sesame)、和企业边缘设备(Solara)。三条线同时推进,覆盖的场景已经很难再用”语音助手”这个词一并描述了。下半年Gemini 3.5 Pro、Siri AI正式版、Solara SDK私测都会陆续落地,但这张地图远还没画完。
