在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验

博客

实时互动 (RTE) 学习、实践与技术洞察

什么是XMPP?

在当前即时通讯(IM)与实时协作系统中,协议层的技术选型是系统可扩展性、互操作性、稳定性以及未来演进的关键因素。XMPP(Extensible Messaging and Presence Proto…

自适应码率详解

在当今互联网视频快速发展、用户对流媒体体验要求越来越高的环境中,“流畅播放”“高清画质”“低缓冲”成为衡量产品竞争力的重要指标。对于运营在线视频平台、直播、教育、游戏云端等业务的企业而言,技术选型不仅…

什么是NLU模型置信度

NLU模型置信度是什么 NLU模型置信度 是模型对每个意图预测的“可信程度”或“自信度”,通常是一个 0~1 之间的实数,表示模型认为该预测正确的概率大小。这种概念在分类问题中尤其常见,其中模型会为每…

用机器学习预测股票价格

股市以波动性强、动态性高、非线性著称。要精确预测股价极具挑战,因为它受多种宏观与微观因素影响:政治、全球经济状况、突发事件、公司的财务表现等等。 但这也意味着:数据很多,可挖的模式也不少。因此,金融分…

深度强化学习:从0到100教机器人操控无人机飞行(下)

三. 构建策略网络(Policy Network) 正如前文所述,我们将使用神经网络作为 “智能体的大脑”,即策略网络。换句话说,它的任务是根据当前环境的状态(state vector),输出一个动作…

双11客服爆棚?用2行代码快速打造24小时AI客服

双十一战鼓擂响,流量洪峰来袭,您的客服团队准备好了吗?面对激增的咨询量,传统人工客服排队漫长、响应迟缓、深夜无人的痛点被无限放大,不仅导致客户流失,更让企业背负沉重的人力成本。 在人工智能技术日益成熟…

深度强化学习:从0到100教机器人操控无人机飞行(上)

你是否好奇,在不预先编程每一个动作的情况下,如何教会机器人让无人机着陆?这正是我在探索的问题。我花了数周时间开发了一款游戏:在游戏中,一架虚拟无人机需自主学会降落到平台上 —— 它无需遵循预先编写的指…

什么是自然语言生成NLG

自然语言生成NLG是什么 自然语言生成 (Natural Language Generation, NLG) 是利用人工智能 (AI)从结构化和非结构化数据中创建自然语言输出的过程。NLG 使计算机和…

什么是自然语言理解NLU

自然语言理解NLU是什么 自然语言理解 (Natural Language Understanding, NLU) 是 AI 的一个子集,它使用语义和句法分析使计算机能够理解人类语言输入。NLU 的目…

什么是自然语言处理NLP

自然语言处理NLP是什么 自然语言处理(Natural Language Processing,NLP)是人工智能和语言学领域的交叉学科,研究计算机处理、理解与生成人类语言的技术。此领域探讨如何处理及…

Convo AI & RTE 2025:当实时互动遇见对话式 AI

2025年10月31日,实时互联网大会(Convo AI & RTE 2025)迎来了第十一届。不同于往年,这一次的大会不只是展示实时音视频的技术进步,而是一次关于“实时互动 × 对话式 AI…

Hugging Face热榜:开源AI方言语音模型SoulX-Podcast

根据开源社区Hugging Face 10月29日最新榜单数据,SoulX-Podcast模型在发布第二天登顶TTS(Text To Speech,从文本到语音)趋势榜。   一. Soul…

RAG已死?上下文工程和语义层在智能体AI中的崛起

引言 检索增强生成(以下简称RAG)曾经是解决大语言模型(LLM)局限性的革命性方案,但它正在快速演变为更庞大的体系。过去两年企业组织意识到,仅靠向量搜索检索文本片段已远远不够。上下文必须具备治理性、…

Oopz降噪游戏语音背后的声网对话式AI“黑科技”

在游戏开黑的世界里,你是否有过这样的崩溃瞬间:刚要和队友喊出 “开团”,却被键盘狂敲声、窗外汽车鸣笛声、家人开门的吱呀声淹没;明明在分享绝杀操作,却因环境噪音让队友听得云里雾里……游戏语音的噪音痛点,…

如何在长会话中管理对话上下文?

在与客服机器人或智能语音助手交谈时,我们常常会碰到这样的尴尬:聊了几句后,AI 突然像失忆了一样,前面说过的信息全忘了。这种对话中断或语义错位的现象,让用户不得不重复解释背景或问题,体验大打折扣。例如…

这可能是介绍 Android UvcCamera 最详细的文章了

设备外接 usb 摄像头,进行基本的预览、拍照、录像。相信有些同学在工作中有遇到类似的需求。 usb 摄像头在 Android 设备上,应用的确很广泛,我之前公司做的是车载产品,众所周知,现在汽车上是…

WebGPU跨平台实战:编写浏览器与桌面通用 C++ 应用

对于网络开发人员来说,WebGPU 是一个网络图形 API,它为 Web 公开 GPU 硬件的功能,允许在 GPU 上进行渲染和计算操作,从而提供对 GPU 统一且快速的访问,与 Direct3D 1…

Python包管理器完全指南:pip、Poetry、uv 该选哪个?

一. 为什么 Python 项目离不开包管理器 当你开始一个新的 Python 项目时,第一件事往往是 `pip install requests` 或 `pip install numpy`。但随着…

Android 版 WebRTC 入门 — 轻松开发视频通话APP!

因为人们都逐渐倾向使用语音和视频通话,所以WebRTC 发展十分迅速并走向大众化,但在 Android 中实现音视频通话却很困难,本教程的内容是希望帮助每个开发者都能轻松了解在Android中开发此功…

详解实时互动中VQA视觉质量评估的技术原理

在实时互动场景中,视频画质是影响观众体验的关键指标,但如何实时评价视频的画质一直是个行业难题,需要将未知的视频画质用户主观体验变成可知。其中声网在探索符合实时互动领域的视频画质评价方法上取得了一定的成…

在音视频后处理阶段,涉及的空间音频处理技术是什么?

伴随元宇宙、AIGC 等技术的发展,在音视频社交场景加入沉浸式的音频效果也成为一种趋势,其中空间音频成为关键因素。在后处理阶段,对音频数据加上空间音频的效果,会给用户端带来沉浸式的极致音频体验。 空间…