在线咨询

专属客服在线解答，提供专业解决方案

工单支持

专业技术支持团队，随时响应服务需求

首页博客正文

微软 Build 2026：语音 Agent 正在变成基础设施

2026-06-04

奇维香蕉果

AI 情报局漫步1024

今年的 Microsoft Build，微软的重心落在一件具体的事上：帮助开发者把 AI Agent 跑进真实业务里。相比去年更多展示模型能力，今年微软更强调部署、编排和多模态交互，语音是其中被着墨最多的方向之一。

本文梳理 Build 2026 中与 Voice AI 直接相关的三类发布：Voice Live、微软自研的 MAI-Voice-2 与 MAI-Transcribe-1.5，以及 Copilot Studio 和 Dynamics 365 Contact Center 的实时语音 Agent 能力。

微软 Build 2026

一. Voice Live：把语音 Agent 的工程复杂度收进一个 API

过去要搭一个语音对话系统，开发者得把 STT、LLM、TTS、降噪、回声消除、端点检测、会话编排一层层串联起来。每个环节都有延迟，整条链路拼下来，体验往往不尽如人意。

Voice Live 想解决的就是这个问题。它把语音识别、文本转语音、轮次检测、打断处理、Avatar 等实时对话能力整合进一个统一 API，开发者不需要自己维护这套管道，直接调用即可构建低延迟语音体验。

对于使用 prompt agent 的团队，Voice Live 已经可以作为添加实时语音能力的快速路径。对于需要自定义运行时和编排框架的团队，Hosted Agents + Voice Live 方案也进入了公开预览阶段——开发者可以用 Microsoft Agent Framework、LangChain 或自定义技术栈，把 Agent 托管在 Foundry Agent Service 上，再接入 Voice Live。

这说明微软并不是在单独推一个”语音接口”，而是把语音能力嵌进了整套 Agent 平台：工具调用、知识库、记忆、Guardrails、企业集成，和低延迟语音交互要能组合在一起用。

二. MAI-Voice-2：语音生成开始往”适合实时任务”的方向走

从”像真人”到”能用在真实场景”

Build 2026 上，微软发布了七个新的 MAI 自研模型，覆盖推理、代码、图像、转写和语音。MAI-Voice-2 是其中的语音生成模型。

根据微软的介绍，它可以从文本或短参考音频生成自然、有表达力的语音，支持 15 种语言，强调自然语速、语调、情绪表达和长文本稳定性，适用于播客、有声书、课程、讲座等长音频场景。模型内置防滥用保护，确保只有经过授权和同意的声音才能被使用。

更值得关注的是 Voice-2-Flash。这个版本面向对延迟极度敏感的语音 Agent 场景，微软在 Build 演讲中明确将超低延迟语音 Agent 列为 2026 年的重要方向之一。

语速、停顿、情绪，开始影响 Agent 的可信度

一个企业语音 Agent 能不能让用户放心用，语音输出的质量直接有影响。语速太快、停顿奇怪、情绪平铺，这些问题不影响文字，但在语音里用户能马上感受到。

语音生成的竞争重点，已经从”像不像真人”转向”是否适合实时任务场景”。MAI-Voice-2 的发布方向，对应的正是这个判断。

三. MAI-Transcribe-1.5：嘈杂环境和行业术语，是转写的真实挑战

MAI-Transcribe-1.5 支持 43 种语言，针对口音、噪声和复杂音频条件进行了优化，并支持行业术语适配。适用场景包括字幕生成、呼叫分析、无障碍体验、会议记录、医疗记录等。

微软表示，MAI-Transcribe-1.5 将集成到 Copilot、Teams、GitHub 和 Dynamics 365 Contact Center 中，同时也通过 Foundry 对外开放。

在企业语音场景里，转写能力的重要性往往被低估。语音 Agent 不只是要”当场回答”——那段对话最终要变成可搜索、可分析、可审计、能触发后续流程的数据。客服质检、销售复盘、会议纪要、工单生成、合规留痕，都压在转写准确率上。口音、背景噪声、行业专有名词，是真实客服场景里绕不开的变量，这也是 MAI-Transcribe-1.5 着重优化的方向。

四. Copilot Studio 与 Dynamics 365：语音 Agent 进联络中心

在 Copilot Studio 和 Dynamics 365 Contact Center 体系里，实时语音 Agent 已经作为重要能力写进了产品路线图。

微软文档显示，Real-time voice agents 支持完全语音驱动的交互：用户直接说话，Agent 即时用语音回应，具备自然语言理解、实时响应、上下文感知、多语言支持，以及 CRM、知识库、API、Power Automate 的集成能力，同时保留确定性流程控制。

传统 IVR 依赖固定菜单和预设话术，用户经常要在”按 1、按 2、等待人工”里绕一圈。实时语音 Agent 的目标，是让用户直接表达需求，由 AI 理解意图、调用系统、完成任务，必要时再交接人工。这个场景落地起来，对语音理解、延迟控制和系统集成同时有要求——Voice Live、MAI-Voice-2 和 MAI-Transcribe-1.5 的组合，对应的正是这套链路。

五. Build 2026 的语音方向，说明了什么

从这次发布的组合来看，微软对 Voice AI 的定位很清楚：语音是 Agent 平台的重要入口，而不是某个功能模块的附加选项。

Voice Live 解决的是实时语音交互链路的工程问题；MAI-Voice-2 解决的是自然语音输出质量；MAI-Transcribe-1.5 解决的是真实噪声环境下的语音理解和转写；Copilot Studio 与 Dynamics 365 则把这些能力带进客服、办公和企业流程。

语音 Agent 的发展大致经历了几个阶段。最早是”能听见、能转写”；接着是”能回答、能合成语音”；现在面临的挑战是：Agent 要能理解上下文、处理打断、调用工具、记住状态、遵守企业规则，并在真实业务系统里完成任务。

这次微软的发布，是在把语音 Agent 从技术验证推向规模化落地。对正在评估语音 AI 方向的团队来说，这个信号值得认真看。

在声网，连接无限可能

想进一步了解「对话式 AI 与实时互动」？欢迎注册，开启探索之旅。

注册体验

本博客为技术交流与平台行业信息分享平台，内容仅供交流参考，文章内容不代表本公司立场和观点，亦不构成任何出版或销售行为。