想象一下这个场景:在一个跨国协作的线上会议中,屏幕下方滚动着精准的实时转录翻译字幕。突然,两三个参会者为了某个战略项目讨论了起来,语速极快且伴随抢话。 如果此时的字幕只是机械地吐出文字,而没有标注姓名…
想象一下这个场景:在一个跨国协作的线上会议中,屏幕下方滚动着精准的实时转录翻译字幕。突然,两三个参会者为了某个战略项目讨论了起来,语速极快且伴随抢话。 如果此时的字幕只是机械地吐出文字,而没有标注姓名…
PLC(Packet Loss Concealment,丢包隐藏)是一种“不等重传、不补原始数据”,而是直接在接收端“补声音感觉”的技术。它解决的不是“数据完不完整”,而是——人听起来会不会突然断、卡…
在做实时转录翻译集成时,很多开发者容易陷入一个误区:认为只要选了市面上最强的 ASR(自动语音识别)模型,转录准确率就稳了。 但实际跑起来后,你会发现:主播一旦开了背景音乐,文字就开始乱跳;多人连麦稍…
无论是跨国团队的远程协作、全球同步的直播带货,还是现在最火的 AI Agent 对话,实时转录翻译(Real-time Transcription & Translation) 已经从“锦上添…
全球娱乐圈的数字化叙事正在发生微妙的变化。根据市场调研机构 Business Research Insights 的最新数据,全球虚拟偶像与数字分身市场规模预计在 2026 年突破 20 亿美元。由于…
在实时互动场景中,视频画质是影响观众体验的关键指标,但如何实时评价视频的画质一直是个行业难题,需要将未知的视频画质用户主观体验变成可知。其中声网在探索符合实时互动领域的视频画质评价方法上取得了一定的成…
随着近几年 Google Home、Amazon Echo、Siri、Cortana 等自动语音识别(ASR)产品的流行,语音助手成了大众生活中的常见应用。这类应用通常是被语音唤醒并从语音中提取文本。…
声音分类应用是最常见的音频深度学习应用,包括学习声音分类、预测声音的类别。声音分类可以应用于多种实际场景,例如,对音乐片段进行分类以识别音乐的流派,或者分析一组对话然后根据声音识别说话者。 本文将通过…
这是我关于音频深度学习系列的第三篇文章。到目前为止,我们已经了解了声音是如何被数字化表示的,也知道深度学习模型通常使用声音的“声谱图(Spectrogram)”作为输入特征。我们还学习了如何在 Pyt…
这是音频深度学习系列文章的第二篇。在上一篇文章中,我们学习了声音是如何被数字化的,知道了我们要把声音转换为声谱图从而在深度学习架构中使用。在本文中,我们将更详细的了解怎么把声音转换为声谱图,以及怎样调…
本博客为技术交流与平台行业信息分享平台,内容仅供交流参考,文章内容不代表本公司立场和观点,亦不构成任何出版或销售行为。