技术实践归档 - 第3页共10页

微软VibeVoice：让AI”聊”出90分钟播客的黑科技

2025 年 8 月，微软开源发布了 VibeVoice-1.5B——一个独具创新的文本转语音（TTS）模型，支持“一文生成长达 90 分钟的对话音频”，并能在单次生成中模拟最多 4 位不同说话人的...

技术实践

2025-08-26

实时流直播 FPS：视频帧率高级指南

不用再特意强调在线直播视频比以往更受欢迎，现在已有超过85%的美国互联网用户每月都会观看在线视频。如果你没有在线内容，那可能会错过 85% 的潜在客户。虽然你可能会因此被说服并拿起相机拍摄一段短片...

技术实践

2025-08-26

视频比特率详解：如何平衡质量、文件大小与流畅播放

不确定将哪些设置比特率的视频用在你的最新项目？现在深入了解我们的指南，我们会告诉你需要知道的一切！当谈及视频制作时，很容易被大量现有的技术信息淹没，尤其是当这些信息会因为你使用的平台或软件不同而不同...

技术实践

2025-08-25

在歌唱场景、语聊等场景中，用户已经不在满足于被听见、被听清、能互动，以及拥有高清的音质体验。他们有了更进一步的需求，希望不仅能有最佳的音质，还想要让自己的声音变得更动听、更有磁性。就像我们看高清视频...

技术实践

2025-08-22

在上一部分我们了解了语音 AI Agent 搭建方案。这一篇将聚焦于其中的关键技术实现：如何让语音代理更加智能地处理打断，如何优化延迟达到实时效果，以及如何进行降噪和回声消除来提升语音交互质量。这些问...

技术实践

2025-08-22

语音 AI Agent（智能语音助手）正日益成为人机交互的重要形式。它可以模拟人类通过语音进行对话，为用户提供实时的服务和信息。在本篇文章中，我们将面向开发者详细介绍构建第一个 Voice AI Ag...

技术实践

2025-08-20

多语言语音AI：NVIDIA Granary开源语音数据集详解

Granary 是 NVIDIA 于 2025 年8月推出的超大规模开源语音数据集，汇集了约 100 万小时的语音音频，覆盖25种欧洲语言。它是迄今最大规模的多语言语音数据资源之一，包括约65万小时的...

技术实践

2025-08-20

多语言语音AI之一：多语言语音AI技术模型盘点

全球约有 7000 种语言，而现有 AI 语言模型覆盖的仅是极小一部分。过去，主流语音识别和语音助手大多专注于英语、中文等少数几种主要语言，许多中小语言的使用者在与智能设备交互时不得不借助第二语言。如...

技术实践

2025-08-19