在线咨询

专属客服在线解答，提供专业解决方案

声网 AI 助手

您的专属 AI 伙伴，开启全新搜索体验

首页博客正文

GTC 2026 的隐藏看点：NVIDIA 押注实时语音 AI

2026-03-25

大力出奇迹

AI 情报局

GTC 2026 的两大主角，一个是芯片——Vera Rubin 平台、Groq 3 LPX；另一个是机器人——黄仁勋把真人大小的 Olaf 机器人推上了台。相比之下，Nemotron 3 VoiceChat 几乎没有出现在任何媒体的头条里。

但如果你正在构建对话 AI 产品，这款模型才是本届 GTC 最值得认真研究的发布。它代表的不只是一个新模型，而是 NVIDIA 对语音交互技术架构的一次深层重构：把原本需要三个独立模型串联才能完成的事，用一个端到端系统做掉了。

一. NVIDIA 这次在语音侧究竟发布了什么

GTC 2026 上，NVIDIA 发布了完整的 Nemotron 3 模型家族，覆盖推理（Super/Ultra）、多模态理解（Nano Omni）、安全审核（Content Safety）和检索增强（RAG）。语音这条线，包含两个层次：

第一层：Nemotron Speech ASR 流式识别模型（已正式发布）

这是一个 6 亿参数的流式语音识别模型，基于 Cache-Aware FastConformer-RNNT 架构，于 2026 年 3 月 12 日在 Hugging Face 上完成更新发布。它最核心的特性是”缓存感知”机制。

传统流式 ASR 的做法是把一段滑动窗口内的音频反复计算，而 Nemotron Speech ASR 只处理新增的音频帧，复用已缓存的上下文，从根本上消除了冗余计算。

根据实测结果：在完整的生产级语音对话链路中，ASR 最终转录的中位延迟仅为 24 毫秒，且不随用户说话时长的变化而波动，短句和长句的转录速度几乎一致。

第二层：Nemotron 3 VoiceChat——端到端全双工语音模型（Early Access）

这是本次发布中架构意义更大的一个。Nemotron 3 VoiceChat 是一个 120 亿参数的端到端语音到语音（Speech-to-Speech）模型，它不再采用”ASR → LLM → TTS”的三段式串联架构，而是在一个统一的流式大语言模型框架内，同时完成语音理解和语音生成，实现真正的全双工交互。

目前它在 VoiceBench（面向真实口语交互的 LLM 语音评测集）中排名所有开源全双工模型第一，在 FullDuplexBench 1.0 中排名第二。目标延迟：端到端 sub-300ms，处理粒度为每 80 毫秒一个音频块，快于实时速度运行。

二. 全双工和传统串联架构，差的到底是什么

要理解 VoiceChat 的意义，需要先搞清楚”传统串联架构”的问题在哪里。

过去两年，绝大多数对话 AI 产品的语音链路长这样：

传统串联架构语音链路

这条链路有三个根本性问题：

问题一：延迟叠加。每个环节都有自己的延迟，三段串联下来，即便每段只有 100ms，加上中间的数据转换和网络往返，整体时延轻松突破 500ms，交互感受明显迟钝。

问题二：多点故障。三个独立模型意味着三套 API 调用、三套错误处理、三套版本管理。任何一环出问题，整条链路就断。

问题三：语境断层。ASR 输出的是文字，LLM 处理的也是文字，但说话人的语气、停顿、语调——这些在 ASR 转写过程中全部丢失了。LLM 看不到”用户说这句话时很焦虑”，只看到干巴巴的文字序列。

Nemotron 3 VoiceChat 的全双工架构解决的正是这三个问题。音频直接进入模型，音频直接从模型输出，中间没有文字这个中转媒介，语气和语调信息得以完整保留，且三段延迟变成一段延迟。

三. GTC 同期，语音基础设施层也在全面升级

VoiceChat 是 GTC 上最受关注的语音发布，但 NVIDIA 这次的布局远不止于此。同期还有几个对开发者同样重要的进展。

Nemotron Speech ASR 更新：并发性能大幅提升

2026 年 3 月 12 日，NVIDIA 在 Hugging Face 上推送了 Nemotron Speech ASR 的新版检查点，基于更大规模语料重新训练。

新版本的核心改进是高并发下的延迟稳定性：传统缓冲式流式 ASR 在并发量提升时延迟快速劣化，Nemotron Speech ASR 可以在并发量提升约 3 倍的情况下保持延迟近乎平稳——这对需要同时支撑大量实时语音对话的企业部署场景意义重大。

Parakeet TDT V3 上架 Together AI

GTC 期间（3 月 17 日），Together AI 宣布将 NVIDIA Parakeet TDT 0.6b V3 纳入其模型库，开发者可以直接通过 Together 的推理 API 调用，无需自行部署 GPU 集群。

Parakeet 系列是 NVIDIA Nemotron Speech 家族的基座编码器，也是 VoiceChat 内部 ASR 组件的底层架构。

四. 但有一个问题，NVIDIA 没有解决

NVIDIA 把模型层做到了极致——从 ASR 到 TTS 再到端到端全双工，延迟、准确率、并发性能全面提升。然而，模型只是对话 AI 系统的一部分。

把完整的语音交互链路画出来，会发现这样一条路径：

用户设备 → 音频采集 → 实时传输网络（RTC层） → ASR/LLM/TTS → 实时传输网络（RTC层） → 用户设备 → 播放

模型层的进步，NVIDIA 在负责。但 RTC 传输层——音频怎么从用户设备可靠、低延迟地传到云端模型，模型的回答怎么再以最低延迟传回用户——这个问题，NVIDIA 并不做。

而这个环节，恰恰是对话 AI 体验最容易出问题的地方。

为什么 AI 语音对 RTC 的要求比视频会议严苛得多

普通视频会议，500~800ms 的端到端延迟用户通常可以接受。但对话 AI 不一样：AI 语音对话要求端到端延迟低于 300ms，才能让人感受到”实时响应”而不是”等待”。超过这个阈值，交互感受就会明显断裂——用户说完话，等了将近半秒才听到 AI 开口，和真人对话的体验差距一下子就出来了。

除延迟之外，对话 AI 场景对 RTC 层还有几个特殊要求：

能力	普通视频会议	对话 AI 场景
延迟要求	500~800ms 可接受	必须低于 300ms
打断处理	不需要	用户随时打断 AI，AI 必须立即停止并响应
背景噪声	降噪即可	噪声直接影响 ASR 准确率，需更精准处理
弱网适应	画质降级可接受	语音卡顿会直接打断对话流，体验崩塌
全球覆盖	主要市场覆盖即可	AI 代理需要全球均一低延迟

这些需求，需要专门为实时音视频场景构建的基础设施来承载，而不是用通用 CDN 或普通云服务器拼凑。

结语

GTC 2026 上，黄仁勋反复说的一个词是”AI 工厂”。AI 不是工具，是一条持续运转的生产线，源源不断地输出 token、完成任务、创造价值。

如果 AI 代理是工厂里的工人，那 语音就是这些工人与外部世界沟通的接口。工厂可以造出全球最聪明的模型，但如果这个接口不稳定、有噪声、有延迟，工人说话别人听不清、听到了半天没回应，工厂的效率就大打折扣。

NVIDIA 这次的布局，把”大脑”和”喉咙”都做得更强了。但让声音真正跑起来，让全球任何一个用户都能以低于 300ms 的延迟和 AI 对话，这件事仍然需要专门的实时通信基础设施来承载。

从 GTC 2026 的信号来看，这个需求接下来只会更大，不会更小。

往期回顾

2025年GTC回顾：《关于对话式人工智能，2025年GTC大会上有哪些看点？》

在声网，连接无限可能

想进一步了解「对话式 AI 与实时互动」？欢迎注册，开启探索之旅。

注册体验

本博客为技术交流与平台行业信息分享平台，内容仅供交流参考，文章内容不代表本公司立场和观点，亦不构成任何出版或销售行为。