在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验

博客

实时互动 (RTE) 学习、实践与技术洞察

什么是 Agent Skills?为什么 2026 年突然爆火(下)

上一篇我们围绕 Agent Skills 明确其核心定位,本质是包含 SKILL.md 文件的文件夹,可将流程、脚本等资源打包为可复用、可版本化、可按需加载的“技能”,且该格式由 Anthropic …

什么是 Agent Skills?为什么 2026 年突然爆火(上)

Agent Skills 可以理解为“给 AI 看的可执行入职手册”:用一个包含 SKILL.md 的文件夹,把流程、脚本、模板、参考资料打包成可复用、可版本化、可按需加载的“技能”。它在 2026 …

GLM-5 到底强在哪:用 6 个开发者任务做“能力剖面图”

2 月 12 日,智谱正式发布 GLM-5。官方给出的关键词非常明确:更强的代码能力、更长的 200K 上下文、更好的 Agent 工具调用能力,以及在多项工程类基准上的显著提升。但问题来了——GLM…

实时转录翻译如何实现说话人标注与字幕对齐

想象一下这个场景:在一个跨国协作的线上会议中,屏幕下方滚动着精准的实时转录翻译字幕。突然,两三个参会者为了某个战略项目讨论了起来,语速极快且伴随抢话。 如果此时的字幕只是机械地吐出文字,而没有标注姓名…

丢包隐藏技术是什么?为什么丢包了,声音还能“不断”?

PLC(Packet Loss Concealment,丢包隐藏)是一种“不等重传、不补原始数据”,而是直接在接收端“补声音感觉”的技术。它解决的不是“数据完不完整”,而是——人听起来会不会突然断、卡…

从音频前处理到文本输出:拆解声网实时转录翻译的端到端逻辑

在做实时转录翻译集成时,很多开发者容易陷入一个误区:认为只要选了市面上最强的 ASR(自动语音识别)模型,转录准确率就稳了。 但实际跑起来后,你会发现:主播一旦开了背景音乐,文字就开始乱跳;多人连麦稍…

实时转录翻译架构指南:如何快速上线高精度、低延时的流式字幕系统?

无论是跨国团队的远程协作、全球同步的直播带货,还是现在最火的 AI Agent 对话,实时转录翻译(Real-time Transcription & Translation) 已经从“锦上添…

GitHub 史上最疯狂增长:OpenClaw 如何在几天内夺得 10W+ 星标

在短短数天内斩获GitHub 10W+星标,OpenClaw成为现象级爆款开源项目,引发技术圈热议。本文深度分析OpenClaw爆火原因,剖析其核心功能与架构特色,并对比AutoGPT等项目,揭秘这款…

OTP 实现方式与传输渠道

第一篇:什么是OTP? 第二篇:OTP 技术原理与算法 第三篇:OTP 实现方式与传输渠道(当前阅读) 第四篇:OTP 应用方式(即将上线) 第五篇:OTP 的安全威胁与防御(即将上线) 在前两篇文章…

【开奖啦】「对话式 AI 驯化手册」征文活动获奖名单出炉!

「对话式 AI 驯化手册」征文活动终于落下帷幕啦! 现在!最激动人心的获奖名单新鲜出炉! 想刷遍本次活动的神文? 戳活动专区直达→https://www.shengwang.cn/blog-tag/c…

什么是VAD语音活动检测

摘要 随着人工智能技术的飞跃,现代语音交互系统正经历向“全双工”(Full-Duplex)架构的范式转移。传统的语音用户界面深受“半双工”通信模式限制,导致人机对话呈现机械化的“说-停-听”循环 。语…

OTP 技术原理与算法详解

在上一篇文章中,我们了解了 OTP(一次性密码)的基本概念和发展历程。然而,要真正理解 OTP 如何保障账户安全,我们需要深入探讨其背后的技术原理和算法实现。 第一篇:什么是OTP? 第二篇:OTP …

什么是安全可靠传输协议(SRT)

安全可靠传输协议(SRT)是一种面向实时音视频传输的低延迟网络协议,旨在在公共或私有网络环境下实现高质量、稳定且安全的流媒体传输。SRT基于UDP架构,结合选择性重传、时间同步与抖动缓冲等机制,在保持…

什么是 OTP(一次性密码)?

本文作为《OTP 深度解析专题》的第一篇,将带你重新认识这一“身份守门员”。 第一篇:什么是OTP?(当前阅读) 第二篇:OTP 技术原理与算法 第三篇:OTP 实现方式与传输渠道(即将上线) 第四篇…

如何判断一个通话是语音通话还是视频通话

在开发实时音视频应用时,准确识别当前通话类型是一个常见但关键的需求。无论是为了优化用户界面显示、调整网络带宽策略,还是实现精准的数据统计和计费逻辑,开发者都需要在运行时动态判断用户正在进行的是语音通话…

当 BLACKPINK 开始“和你连麦”:如何让虚拟偶像具备“实时通话”能力

全球娱乐圈的数字化叙事正在发生微妙的变化。根据市场调研机构 Business Research Insights 的最新数据,全球虚拟偶像与数字分身市场规模预计在 2026 年突破 20 亿美元。由于…

什么是媒体鲁棒性

媒体鲁棒性是音视频系统在不稳定网络中保持连续可用播放的能力。它通过编码加固、自适应码率调整、前向纠错、错误隐藏及多路径传输等多层技术,实现对网络扰动的容忍、适应与恢复,确保用户体验不因带宽波动、丢包等…

什么是RTP重传机制

RTP是实时传输协议,其重传机制通过检测丢包并请求重传以保障数据可靠性。采用基于时间戳、序列号或混合策略,需应对重传风暴、延迟等问题。在实际应用中,结合选择性重传、前向纠错和丢包隐藏技术进行优化,以适…

什么是安全实时传输协议

安全实时传输协议(SRTP)是RTP的安全扩展,在单播与组播应用中为RTP/RTCP数据提供加密、消息认证、完整性及重放攻击防护。它通过AES加密(支持分段整型计数器模式和f8模式)保障数据流机密性,…

GitHub10大免费开源 Agent 开发平台:测评与选型指南

本文对 10 大开源免费 Agent 开发平台展开详细测评,并提供适配选型指南。测评的平台涵盖鼻祖级项目 AutoGPT、融合 BaaS 与 LLMOps 理念的 Dify、构建 Agent 的事实标…

年货节来袭客服爆棚?用2行代码快速打造24小时AI客服

各大电商平台年货节战鼓擂响,流量洪峰来袭,您的客服团队准备好了吗?面对激增的咨询量,传统人工客服排队漫长、响应迟缓、深夜无人的痛点被无限放大,不仅导致客户流失,更让企业背负沉重的人力成本。 在人工智能…