今年的 Microsoft Build,微软的重心落在一件具体的事上:帮助开发者把 AI Agent 跑进真实业务里。相比去年更多展示模型能力,今年微软更强调部署、编排和多模态交互,语音是其中被着墨最多的方向之一。
本文梳理 Build 2026 中与 Voice AI 直接相关的三类发布:Voice Live、微软自研的 MAI-Voice-2 与 MAI-Transcribe-1.5,以及 Copilot Studio 和 Dynamics 365 Contact Center 的实时语音 Agent 能力。

一. Voice Live:把语音 Agent 的工程复杂度收进一个 API
过去要搭一个语音对话系统,开发者得把 STT、LLM、TTS、降噪、回声消除、端点检测、会话编排一层层串联起来。每个环节都有延迟,整条链路拼下来,体验往往不尽如人意。
Voice Live 想解决的就是这个问题。它把语音识别、文本转语音、轮次检测、打断处理、Avatar 等实时对话能力整合进一个统一 API,开发者不需要自己维护这套管道,直接调用即可构建低延迟语音体验。
对于使用 prompt agent 的团队,Voice Live 已经可以作为添加实时语音能力的快速路径。对于需要自定义运行时和编排框架的团队,Hosted Agents + Voice Live 方案也进入了公开预览阶段——开发者可以用 Microsoft Agent Framework、LangChain 或自定义技术栈,把 Agent 托管在 Foundry Agent Service 上,再接入 Voice Live。
这说明微软并不是在单独推一个”语音接口”,而是把语音能力嵌进了整套 Agent 平台:工具调用、知识库、记忆、Guardrails、企业集成,和低延迟语音交互要能组合在一起用。
二. MAI-Voice-2:语音生成开始往”适合实时任务”的方向走
从”像真人”到”能用在真实场景”
Build 2026 上,微软发布了七个新的 MAI 自研模型,覆盖推理、代码、图像、转写和语音。MAI-Voice-2 是其中的语音生成模型。
根据微软的介绍,它可以从文本或短参考音频生成自然、有表达力的语音,支持 15 种语言,强调自然语速、语调、情绪表达和长文本稳定性,适用于播客、有声书、课程、讲座等长音频场景。模型内置防滥用保护,确保只有经过授权和同意的声音才能被使用。
更值得关注的是 Voice-2-Flash。这个版本面向对延迟极度敏感的语音 Agent 场景,微软在 Build 演讲中明确将超低延迟语音 Agent 列为 2026 年的重要方向之一。
语速、停顿、情绪,开始影响 Agent 的可信度
一个企业语音 Agent 能不能让用户放心用,语音输出的质量直接有影响。语速太快、停顿奇怪、情绪平铺,这些问题不影响文字,但在语音里用户能马上感受到。
语音生成的竞争重点,已经从”像不像真人”转向”是否适合实时任务场景”。MAI-Voice-2 的发布方向,对应的正是这个判断。
三. MAI-Transcribe-1.5:嘈杂环境和行业术语,是转写的真实挑战
MAI-Transcribe-1.5 支持 43 种语言,针对口音、噪声和复杂音频条件进行了优化,并支持行业术语适配。适用场景包括字幕生成、呼叫分析、无障碍体验、会议记录、医疗记录等。
微软表示,MAI-Transcribe-1.5 将集成到 Copilot、Teams、GitHub 和 Dynamics 365 Contact Center 中,同时也通过 Foundry 对外开放。
在企业语音场景里,转写能力的重要性往往被低估。语音 Agent 不只是要”当场回答”——那段对话最终要变成可搜索、可分析、可审计、能触发后续流程的数据。客服质检、销售复盘、会议纪要、工单生成、合规留痕,都压在转写准确率上。口音、背景噪声、行业专有名词,是真实客服场景里绕不开的变量,这也是 MAI-Transcribe-1.5 着重优化的方向。
四. Copilot Studio 与 Dynamics 365:语音 Agent 进联络中心
在 Copilot Studio 和 Dynamics 365 Contact Center 体系里,实时语音 Agent 已经作为重要能力写进了产品路线图。
微软文档显示,Real-time voice agents 支持完全语音驱动的交互:用户直接说话,Agent 即时用语音回应,具备自然语言理解、实时响应、上下文感知、多语言支持,以及 CRM、知识库、API、Power Automate 的集成能力,同时保留确定性流程控制。
传统 IVR 依赖固定菜单和预设话术,用户经常要在”按 1、按 2、等待人工”里绕一圈。实时语音 Agent 的目标,是让用户直接表达需求,由 AI 理解意图、调用系统、完成任务,必要时再交接人工。这个场景落地起来,对语音理解、延迟控制和系统集成同时有要求——Voice Live、MAI-Voice-2 和 MAI-Transcribe-1.5 的组合,对应的正是这套链路。
五. Build 2026 的语音方向,说明了什么
从这次发布的组合来看,微软对 Voice AI 的定位很清楚:语音是 Agent 平台的重要入口,而不是某个功能模块的附加选项。
Voice Live 解决的是实时语音交互链路的工程问题;MAI-Voice-2 解决的是自然语音输出质量;MAI-Transcribe-1.5 解决的是真实噪声环境下的语音理解和转写;Copilot Studio 与 Dynamics 365 则把这些能力带进客服、办公和企业流程。
语音 Agent 的发展大致经历了几个阶段。最早是”能听见、能转写”;接着是”能回答、能合成语音”;现在面临的挑战是:Agent 要能理解上下文、处理打断、调用工具、记住状态、遵守企业规则,并在真实业务系统里完成任务。
这次微软的发布,是在把语音 Agent 从技术验证推向规模化落地。对正在评估语音 AI 方向的团队来说,这个信号值得认真看。