在开发实时音视频应用时,准确识别当前通话类型是一个常见但关键的需求。无论是为了优化用户界面显示、调整网络带宽策略,还是实现精准的数据统计和计费逻辑,开发者都需要在运行时动态判断用户正在进行的是语音通话…

在开发实时音视频应用时,准确识别当前通话类型是一个常见但关键的需求。无论是为了优化用户界面显示、调整网络带宽策略,还是实现精准的数据统计和计费逻辑,开发者都需要在运行时动态判断用户正在进行的是语音通话…

全球娱乐圈的数字化叙事正在发生微妙的变化。根据市场调研机构 Business Research Insights 的最新数据,全球虚拟偶像与数字分身市场规模预计在 2026 年突破 20 亿美元。由于…

在直播行业,大家都听过一句话:“延迟是互动的杀手”。但在实际选型时,很多开发者和产品经理常会在“声网”这类实时互动方案和“传统 CDN + RTMP”方案之间纠结。说实话,这两者表面上看都是“传视频”…

2025年10月31日,实时互联网大会(Convo AI & RTE 2025)迎来了第十一届。不同于往年,这一次的大会不只是展示实时音视频的技术进步,而是一次关于“实时互动 × 对话式 AI…

在游戏开黑的世界里,你是否有过这样的崩溃瞬间:刚要和队友喊出 “开团”,却被键盘狂敲声、窗外汽车鸣笛声、家人开门的吱呀声淹没;明明在分享绝杀操作,却因环境噪音让队友听得云里雾里……游戏语音的噪音痛点,…

在实时互动场景中,视频画质是影响观众体验的关键指标,但如何实时评价视频的画质一直是个行业难题,需要将未知的视频画质用户主观体验变成可知。其中声网在探索符合实时互动领域的视频画质评价方法上取得了一定的成…

伴随元宇宙、AIGC 等技术的发展,在音视频社交场景加入沉浸式的音频效果也成为一种趋势,其中空间音频成为关键因素。在后处理阶段,对音频数据加上空间音频的效果,会给用户端带来沉浸式的极致音频体验。 空间…

随着近几年 Google Home、Amazon Echo、Siri、Cortana 等自动语音识别(ASR)产品的流行,语音助手成了大众生活中的常见应用。这类应用通常是被语音唤醒并从语音中提取文本。…

声音分类应用是最常见的音频深度学习应用,包括学习声音分类、预测声音的类别。声音分类可以应用于多种实际场景,例如,对音乐片段进行分类以识别音乐的流派,或者分析一组对话然后根据声音识别说话者。 本文将通过…

这是我关于音频深度学习系列的第三篇文章。到目前为止,我们已经了解了声音是如何被数字化表示的,也知道深度学习模型通常使用声音的“声谱图(Spectrogram)”作为输入特征。我们还学习了如何在 Pyt…
本博客为技术交流与平台行业信息分享平台,内容仅供交流参考,文章内容不代表本公司立场和观点,亦不构成任何出版或销售行为。