在线咨询

专属客服在线解答，提供专业解决方案

工单支持

专业技术支持团队，随时响应服务需求

首页博客正文

2026年上半年语音AI大事记：从GPT-Realtime-2到MAI-Voice-2，再到Gemini驱动的Siri

2026-06-12

奇维香蕉果

AI 情报局对话式 AI 行业趋势

2026年上半年，语音AI经历了过去几年里变化最密集的六个月。OpenAI、Google、微软、苹果在同一时间窗口里相继发布了对行业格局有实质影响的产品，Thinking Machines Lab这样的新玩家也带着真正不同的技术路线登场。

这篇文章梳理其中最值得记录的8个事件，把这8件事放在一起看，可以发现：各家正在把语音能力下沉到各自平台的底层，语音AI正在从产品变成平台层的基础设施层。

2026年上半年语音AI大事记

一. GPT-Realtime-2：推理能力第一次进入语音对话

2026年5月7日，OpenAI API发布

5月7日，OpenAI通过Realtime API发布了三款新的音频模型，其中GPT-Realtime-2是核心。这是OpenAI第一款在实时语音场景中引入GPT-5级推理能力的模型，上下文窗口从前代的32K token扩展至128K token。

此前的实时语音模型普遍存在一个问题：模型在通话中遇到需要思考的问题时，要么沉默，要么草率回答。GPT-Realtime-2加入了可配置的推理强度（从minimal到xhigh），并支持在说话的同时并行调用外部工具，可以口头说一句”let me check that”来过渡，而不是让对话陷入尴尬的停顿。

随这次发布一起上线的还有GPT-Realtime-Translate（支持70+种语言输入、13种语言输出的流式语音翻译）和GPT-Realtime-Whisper（低延迟流式语音转文字）。定价方面，GPT-Realtime-2的音频输入$32/百万token，音频输出$64/百万token。

发布时同步公布了两个生产部署数据：Zillow在对抗性基准测试中通话成功率从69%提升至95%；Glean的帮助率提升42.9%。这类具体数字在OpenAI的发布里并不常见，说明他们对这次发布的商业验证有一定信心。

二. Gemini 3.5 Flash + Live API：Google在I/O 2026重新确立语音AI位置

2026年5月19日，Google I/O 2026发布

Google I/O 2026（5月19日）上，Gemini 3.5 Flash正式发布并当日GA。模型定价$1.50/百万输入token、$9/百万输出token，1M token上下文窗口，输出吞吐量据Google官方称是同类旗舰模型的4倍。

语音侧的核心发布是Live API的全面开放，以及同步上线的Native Voice Support（原生语音支持）。Live API基于全双工WebSocket架构，支持Proactive Audio（由模型主动发起对话）、自动语言检测、实时多语言翻译。Gemini Live还新增了与文字输入的无缝切换。与此同时，Gemini 3.5 Live Translate也在I/O上亮相，支持70+语言的流式语音翻译，并已集成进Google Meet。

值得单独提一下的是Project Astra在这次发布中的定位更新：支持在说话时同时忽略背景噪声和无关对话、用多个工具完成连续任务，设计目标是通过一次连续交互完成多项任务，而不要求用户反复重新发出指令。

Android XR智能眼镜（秋季出货）也在这次I/O上确认，支持镜片内实时翻译字幕，只有佩戴者自己能看到。

三. TML-Interaction-Small：全双工交互模型，FD-bench得分77.8

2026年5月11日，Thinking Machines Lab发布研究预览

前OpenAI CTO Mira Murati创立的Thinking Machines Lab于5月11日发布TML-Interaction-Small，定义了一个新的模型类别：交互模型（Interaction Model）。

与现有实时语音模型的核心差异是架构层面的。GPT-Realtime-2和Gemini Live都仍是”请求-响应”结构，等用户停顿后再开始推理输出。TML-Interaction-Small以200毫秒为单位做连续”微轮次”处理，可以同时接收和输出音频，不依赖外部VAD（语音活动检测）或独立的对话管理系统，”何时说话”的判断内化在模型本身。底层采用无编码器早期融合（Encoder-Free Early Fusion）技术，将原始音频和视觉信号直接送入Transformer核心层处理。

在FD-bench v1.5（Full-Duplex Benchmark，专门衡量对话交互质量）上，TML-Interaction-Small得分77.8，Gemini 3.1 Flash Live得分54.3，GPT-Realtime-2得分46.8。端到端轮次延迟0.40秒，Gemini为0.57秒，GPT-Realtime-2为1.18秒。两个专项测试里，TimeSpeak（测模型能否在用户指定时间点开口）TML得64.7、第二名4.3，CueSpeak（测语义合适时机主动插话）TML得81.7、第二名2.9。

有几点需要同时说清楚：所有数据均为Thinking Machines自报，未经第三方验证；eWeek等媒体指出FD-bench得分高不等于业务场景表现优；模型在长会话中存在”上下文膨胀”问题；目前仍是研究预览，广泛发布计划在2026年下半年。Thinking Machines Lab此前在2026年1月经历了联合创始人Barret Zoph和Luke Metz回归OpenAI的人员波动，这是他们此后的首次重大技术亮相。

四. Sesame iOS公测：语音AI消费端的第一个百万用户验证

2026年5月28日，iOS应用公测上线39国

Sesame（Oculus联合创始人Brendan Iribe和Ankit Kumar创立）于5月28日发布iOS应用公测版，开放39个国家。在此之前，研究预览阶段仅凭Maya和Miles两个AI语音角色，数周内吸引了100万+用户。公测版新增了四个具有独特声音、个性、观点和持久记忆的Agent：Maya、Miles、Simone、Charlie。

Sesame的技术主张是：AI在说话的同时并行运行多次搜索，将实时信息织入对话，而不是等信息获取完成后再开口。这个设计针对的是”快速回复但浅薄”和”深度但迟缓”之间长期存在的矛盾。

公司已完成$2.5亿B轮融资（Sequoia领投），Android版计划稍后推出，面向智能眼镜形态的版本计划2027年发布。

Sesame目前还没有直接的商业路径披露，产品仍在免费阶段积累用户。100万用户这个数字更多说明的是：具有流畅个性和持久记忆的语音AI对普通用户有真实吸引力，不只是开发者或企业在试验。

五. 微软MAI完整语音栈：7款自研模型，”从零开始训练”

2026年6月2日，Microsoft Build 2026发布

Microsoft Build 2026（6月2日）上，微软一次性发布了7款MAI自研模型，其中语音相关的两款是：

MAI-Transcribe-1.5：前代MAI-Transcribe-1（4月发布，25语言）的升级版，语言覆盖扩展至43语言，新增自动语言检测，采用MoE（混合专家）架构。据微软官方称，转录速度约为竞品的5倍，1小时音频可在15秒内完成转录，词错误率2.4%，定价$0.36/小时（与前代相同）。正在集成进Copilot、Teams、GitHub和Dynamics 365联络中心。

MAI-Voice-2：MAI-Voice-1（4月，仅支持英语）的重大升级，语言覆盖扩展至15+语言（德语、澳式/美式英语、西班牙语、法语、印地语、印尼语、意大利语、日语、韩语、荷兰语、葡萄牙语、土耳其语、越南语、中文），情感范围新增愤怒、困惑、尴尬、欢乐、耳语。同步发布MAI-Voice-2-Flash变体，专为超低延迟语音Agent场景设计。

微软官方对这批模型的声明是：”从零开始构建，基于干净授权数据集，不进行第三方模型蒸馏。”WindowsForum的分析把这次Build概括为”微软AI战略真正成为一个完整技术栈”的节点——它仍会用OpenAI处理需要前沿推理的工作负载，但语音、图像、转录、编码这些高频高量场景，现在有了自研选项。

六. Azure Speech Voice Live GA：单API整合语音Agent全链路

2026年6月2日，Microsoft Build 2026正式可用

与MAI模型同日，Azure Speech Voice Live API在Build 2026正式GA（全面可用）。这个API把STT（语音转文字）、TTS（文字转语音）、轮次检测、打断处理、Avatar、Agent编排、知识库、记忆、企业治理和可观测性全部放在一个开发工作流里。Hosted Agents with Voice Live（托管版，含Agent编排）进入Public Preview。

发布会引用了Optimal Blue（抵押定价平台）的案例：他们用Photo Avatar和Azure Speech服务构建了面向用户的”虚拟经济学家”交互界面，不再只是一个数据接口。

Voice Live GA的意义在于，它代表了和OpenAI Realtime API、Google Gemini Live相似的产品方向：用一个API替代开发者自行搭建STT→LLM→TTS三段式管道，把延迟优化、轮次管理、打断处理的工程成本收归平台侧。三家巨头在同一时间窗口推出这类产品，本身就是一个行业信号。

七. Project Solara：微软的语音驱动企业可穿戴平台

2026年6月2日，Microsoft Build 2026发布

Build 2026上还发布了Project Solara，一个基于AOSP的”Agent优先”芯片到云设备平台，专为企业可穿戴和桌面设备设计。两款参考硬件设计：

智能工牌：5G连接，四麦克风阵列+波束成形，摄像头，触摸屏，按下即录制并触发转录。
桌面Hub：声控激活，人脸识别，可接显示器变成云Windows。

Build演示显示设备可从耳语中检测用户意图，触发云查询，并在500ms内完成语音合成响应（其中网络往返占大部分时间）。Solara SDK预计2026年7月启动私测，面向仓储、医疗、现场服务等场景；Accenture和DHL已确认试点，第三方设备GA计划在2027年。

Project Solara把”语音是边缘企业设备的主要交互界面”这件事具体化了。500ms端到端响应在无屏幕的嘈杂现场环境里意味着什么，要等实际部署数据出来才能判断。

八. Apple Siri AI重建：Gemini驱动，iOS 27开放第三方AI Extensions

2026年6月8日，Apple WWDC 2026发布

6月8日，Tim Cook在卸任前最后一次WWDC主题演讲上发布了重建后的Siri AI。这是Siri十五年来最重要的架构改变。

新Siri采用三层路由架构：简单指令（设定计时器、控制智能家居）全程在设备端处理，由苹果自研小型神经网络模型完成，数据不离开iPhone；中等复杂度请求交给Apple Private Cloud Compute，运行在密封定制Apple Silicon节点上，无状态临时计算；最复杂的查询路由到Google Cloud上的Nvidia B200 GPU，驱动的是Google为苹果定制的1.2万亿参数Gemini模型。据Bloomberg报道，苹果为此向Google支付约$10亿/年授权费，协议跨多年。

新Siri支持多轮对话、语音+文字双输入，推出专属Siri应用（iMessage风格界面），对话历史通过iCloud跨设备同步，可调取邮件、日历、照片等个人上下文给出个人化回答。

与此同时，iOS 27引入Extensions框架，允许用户在设置里把Claude、Gemini或ChatGPT设置为默认AI助手，替代Siri处理Apple Intelligence的全部系统功能（Writing Tools、Image Playground、Siri对话）。这是苹果十年来第一次开放AI助手竞争接口。App Store将开设专属Extensions区域，首批确认合作的是Claude（Anthropic）和Gemini，加上已有的ChatGPT。

Siri AI和iOS 27 Extensions均不在欧盟和中国首发，原因分别是DMA法规合规问题和本地监管要求。全功能需iPhone 17 Pro/Max或iPhone Air，正式版随iOS 27在今年秋天推出，灰度上线。

九. 下半年值得关注的几件事

苹果HomeOS和智能眼镜

WWDC 2026上还有一个发布没有在本文的主线里展开：苹果HomeOS的开发者预览。HomeOS针对家庭场景的语音控制中心，配合Android XR眼镜的秋季出货（实时翻译字幕），苹果在硬件层面的语音AI布局开始清晰。

Project Solara SDK私测和第三方设备

微软的Solara SDK计划7月启动私测，Accenture和DHL的实际部署数据预计在年底前会有初步反馈。企业边缘设备上的语音Agent能不能在实际仓储/医疗/现场环境里稳定工作，是比演示更重要的验证。

EU AI Act第50条执法：8月2日生效

欧盟AI法案第50条（关于深度伪造和AI交互透明度的义务）将于8月2日开始执行，要求企业披露AI生成内容并获取用户同意。合成语音领域受此影响直接，ElevenLabs已于6月加入SynthID水印体系（通过Google发布），OpenAI同期也接入。对语音AI产品来说，水印标注和透明度披露在8月后从”可选”变成欧盟范围内的法律要求。

Gemini 3.5 Pro

Sundar Pichai在I/O 2026上明确表示”我们正在努力推进3.5 Pro，内部已经在使用，期待下个月推出”——”下个月”指6月。截至本文发布，Gemini 3.5 Pro尚未公开发布，但按照Google的公开表态，时间窗口就在这个月内。Gemini 3.5 Flash已经在Terminal-Bench 2.1上超越了Gemini 3.1 Pro，如果Pro延续这一差距，语音和Agent领域的能力对比将再次被刷新。

六个月里，语音AI出现在了三类地方：平台的底层（Siri、Teams、Copilot）、独立的消费产品（Sesame）、和企业边缘设备（Solara）。三条线同时推进，覆盖的场景已经很难再用”语音助手”这个词一并描述了。下半年Gemini 3.5 Pro、Siri AI正式版、Solara SDK私测都会陆续落地，但这张地图远还没画完。

在声网，连接无限可能

想进一步了解「对话式 AI 与实时互动」？欢迎注册，开启探索之旅。

注册体验

本博客为技术交流与平台行业信息分享平台，内容仅供交流参考，文章内容不代表本公司立场和观点，亦不构成任何出版或销售行为。

2026年上半年语音AI大事记：从GPT-Realtime-2到MAI-Voice-2，再到Gemini驱动的Siri

一. GPT-Realtime-2：推理能力第一次进入语音对话

2026年5月7日，OpenAI API发布

二. Gemini 3.5 Flash + Live API：Google在I/O 2026重新确立语音AI位置

2026年5月19日，Google I/O 2026发布

三. TML-Interaction-Small：全双工交互模型，FD-bench得分77.8

2026年5月11日，Thinking Machines Lab发布研究预览

四. Sesame iOS公测：语音AI消费端的第一个百万用户验证

2026年5月28日，iOS应用公测上线39国

五. 微软MAI完整语音栈：7款自研模型，”从零开始训练”

2026年6月2日，Microsoft Build 2026发布

六. Azure Speech Voice Live GA：单API整合语音Agent全链路

2026年6月2日，Microsoft Build 2026正式可用

七. Project Solara：微软的语音驱动企业可穿戴平台

2026年6月2日，Microsoft Build 2026发布

八. Apple Siri AI重建：Gemini驱动，iOS 27开放第三方AI Extensions

2026年6月8日，Apple WWDC 2026发布

九. 下半年值得关注的几件事

苹果HomeOS和智能眼镜

Project Solara SDK私测和第三方设备

EU AI Act第50条执法：8月2日生效

Gemini 3.5 Pro

相关产品&解决方案

相关文章

在声网，连接无限可能