近日,谷歌正式宣布将 AI 大模型 Gemini 引入 Google TV 平台,使用户可以通过电视进行“自由流式的自然语言对话”。这一举措意味着电视这个传统家庭娱乐中心将成为全新的对话式 AI 入口...
2025-09-28
引言 在智能语音交互领域,实现更加自然流畅的对话体验是开发者追求的目标。本文面向对话式 AI 技术开发者,探讨全双工语音对话相较传统半双工/轮流对话模式的技术挑战与实现方案。我们将深入解析如何构建支持...
2025-09-23
随着人工智能的发展,“AI塔罗”这一新兴对话应用正悄然兴起。许多年轻人开始尝试通过在线聊天与AI塔罗进行占卜,对比传统塔罗占卜,这种对话式AI带来了全新的体验。那么,AI塔罗的在线聊天体验究竟怎么样?...
2025-09-02
Granary 是 NVIDIA 于 2025 年8月推出的超大规模开源语音数据集,汇集了约 100 万小时的语音音频,覆盖25种欧洲语言。它是迄今最大规模的多语言语音数据资源之一,包括约65万小时的...
2025-08-20
全球约有 7000 种语言,而现有 AI 语言模型覆盖的仅是极小一部分。过去,主流语音识别和语音助手大多专注于英语、中文等少数几种主要语言,许多中小语言的使用者在与智能设备交互时不得不借助第二语言。如...
2025-08-19
Voice AI Agent(语音智能体)是一种能够进行语言交流和任务执行的自主系统,能够处理人类语音指令并给出语音回应。与传统只能执行单一任务的AI工具不同,Voice AI Agent结合了语音识...
2025-08-12
多模型接入的架构设计要点 如前文所述,Voice AI Agent 通常由多个不同功能的模型/服务组成:ASR、LLM、TTS 各司其职。这种多模型级联架构的优点是每个组件都可以选用领域内最优或最合适...
2025-08-12
在语音AI系统中,“听懂人话”之后,最后一步就是让机器“开口说话”。文本转语音(Text-to-Speech, TTS)技术实现了将文本变为自然的语音播放出来。此外,近年兴起的音色转换(Voice C...
2025-08-08