音视频通信_博客

Convo AI & RTE 2025：当实时互动遇见对话式 AI

2025年10月31日，实时互联网大会（Convo AI & RTE 2025）迎来了第十一届。不同于往年，这一次的大会不只是展示实时音视频的技术进步，而是一次关于“实时互动 × 对话式 AI...

行业趋势音视频通信

2025-11-05

Oopz降噪游戏语音背后的声网对话式AI“黑科技”

在游戏开黑的世界里，你是否有过这样的崩溃瞬间：刚要和队友喊出 “开团”，却被键盘狂敲声、窗外汽车鸣笛声、家人开门的吱呀声淹没；明明在分享绝杀操作，却因环境噪音让队友听得云里雾里……游戏语音的噪音痛点，...

应用案例音视频通信

2025-11-04

详解实时互动中VQA视觉质量评估的技术原理

在实时互动场景中，视频画质是影响观众体验的关键指标，但如何实时评价视频的画质一直是个行业难题，需要将未知的视频画质用户主观体验变成可知。其中声网在探索符合实时互动领域的视频画质评价方法上取得了一定的成...

技术解析音视频通信

2025-10-29

伴随元宇宙、AIGC 等技术的发展，在音视频社交场景加入沉浸式的音频效果也成为一种趋势，其中空间音频成为关键因素。在后处理阶段，对音频数据加上空间音频的效果，会给用户端带来沉浸式的极致音频体验。空间...

音视频通信

2025-10-29

音频深度学习入门五：自动语音识别（ASR）

随着近几年 Google Home、Amazon Echo、Siri、Cortana 等自动语音识别（ASR）产品的流行，语音助手成了大众生活中的常见应用。这类应用通常是被语音唤醒并从语音中提取文本。...

技术解析音视频通信

2025-10-29

音频深度学习入门四：声音分类，分步进行

声音分类应用是最常见的音频深度学习应用，包括学习声音分类、预测声音的类别。声音分类可以应用于多种实际场景，例如，对音乐片段进行分类以识别音乐的流派，或者分析一组对话然后根据声音识别说话者。本文将通过...

技术解析音视频通信

2025-10-28

音频深度学习入门三：功能优化和增强

这是我关于音频深度学习系列的第三篇文章。到目前为止，我们已经了解了声音是如何被数字化表示的，也知道深度学习模型通常使用声音的“声谱图（Spectrogram）”作为输入特征。我们还学习了如何在 Pyt...

技术解析音视频通信

2025-10-24

音频深度学习入门二：为什么梅尔声谱图性能更佳

这是音频深度学习系列文章的第二篇。在上一篇文章中，我们学习了声音是如何被数字化的，知道了我们要把声音转换为声谱图从而在深度学习架构中使用。在本文中，我们将更详细的了解怎么把声音转换为声谱图，以及怎样调...

技术解析音视频通信

2025-10-22