在线咨询
专属客服在线解答,提供专业解决方案
声网 AI助手
您的专属 AI 伙伴,开启全新搜索体验

实时音视频RTC

声网是全球实时互动云服务开创者和引领者,开发者只需简单调用声网API,即可在应用内构建多种实时音视频互动场景。

超低延时 | 超分辨率 | 抗弱网 | 全球服务高可用

实时音视频,RTC

什么是实时音视频

实时音视频,即RTC(Real-Time Communication),是一种实时通信技术,它允许计算机、网络设备或移动设备之间进行音频、视频或数据交换。RTC的核心是交流,强调对语义信息进行高质量和高效率的传递。借助RTC,用户可以进行基本的音视频通话,实现线上交流的目的。

相比泛指的通信,RTC 更加聚焦实时性,可以在极短的时间内传输音频、视频、数据等信息,从而实现实时交流和互动。

接入的实时性

用户接入的高登录成功率,保证用户不受连接设备、网络情况、地域环境等因素限制,随时随地接入网络、触达业务。

传输的实时性

音视频数据传输的低延时和低卡顿,通过网络实时动态路由规划,以最优边缘节点接入,降低端到端的延时,保证传输流畅进行。

交互的实时性

除基础音视频外,图像、 声音、 音效等多种交互方式反馈的实时性,需要AI算法、边缘计算等技术综合处理。

渲染的实时性

最终画面 (尤其是3D画面)、多维场景展示的实时性,需要大量的场景计算能力,使用户获得逼真流畅感受。

实时音视频技术的演变与发展

实时音视频技术发展历程可以概括为 1999年GIPS、2011年WebRTC、2014年 RTC PaaS化、2020年 RTE实时互动融合能力 四个阶段

从GIPS到WebRTC

GIPS前身为Global IP Sound,成立于1999年,是家专注于互联网VoIP以及语音信号处理的公司。得益于其在语音处理领域丰富的专利以及能够在恶劣的网络条件下仍能保持低延迟、 出色音质的表现,受到了 WebEx、 Skype等公司的青睐。2010年谷歌收购该公司并开源了GIPS的核心代码和免费专利授权,拉开了实时音视频行业的序幕。

webrtc推动音视频通话的普及

WebRTC推动音视频通话的普及

自谷歌开源WebRTC项目后,伴随着移动互联网的发展以及4G\5G的普及,互联网上的音视频流量呈井喷之势。
WebRTC是一套支持网页浏览器进行实时音视频通话的W3C JavaScript API,它包含了音视频的采集、编解码、网络传输、渲染播放等功能。越来越多的人开始基于Chrome及WebRTC开源项目构建实时互动应用。

RTC PaaS化促使实时音视频走向繁荣

构建一个基于WebRTC的应用非常复杂,且需要处理不同平台的兼容性等问题,因此RTC PaaS化应运而生。RTC PaaS化是将实时通信技术作为一种服务提供给开发者,开发者无需关心底层音视频技术细节,只需要调用API接口即可在应用中实现实时音视频互动功能,极大地降低了开发门槛和成本。RTC PaaS化的典型代表就是声网,它是第一个将实时音视频作为PaaS服务提供给开发者和企业客户使用的服务商,也是目前全球最大的RTC PaaS化服务商之一。

RTE实时互动融合能力

RTC PaaS化虽极大简化了开发难度和成本,但随着实时音视频技术的普及和应用的多样化,开发者对于实时音视频技术的需求也越来越高,不再满足于简单的音视频通话功能,而是希望能够提供更加丰富和个性化的实时互动体验,例如美颜滤镜、变声变调等。2020年声网提出了RTE(实时互动)的全新概念,它是在RTC PaaS化的基础上进一步提供更丰富和灵活的实时互动能力。开发者可以根据不同的场景需求,灵活选择和组合各种实时互动能力,打造更加个性化和差异化的实时互动体验。

实时音视频技术原理

实时音视频技术的工作流程相当复杂,想要实现一段完整的音视频通话,在技术架构中需要包含采集、前处现音视频编码、传输、音视频解码、后处理、渲染等很多环节。每一个环节,还有更细分的技术模块,例如,前后处理环节有噪声抑制、回声消除、美颜、锐化、超分等,传输有后台传输、客户端传输等等。通过不同的技术组件实现音视频的实时传输和处理,形成一个完整的通话流程。

1 音视频采集
音视频采集是指从设备(如麦克风、摄像头)中获取音频和视频数据。在移动设备上,可以通过调用操作系统提供的API(如Android的MediaRecorder和Camera)来实现媒体采集。

● 音频采集
在实时音视频通话中,首个环节就是音频的采集。音频采集是指将声音信号转换成数字信号的过程,使其能够在计算机和网络上传输和处理。
● 视频采集
视频采集使用专用设备或软件,通过摄像头或摄像机将现实世界中的视频信号转换为数字信号。
2 音视频前处理

在音视频采集后,需要对采集的音视频进行处理,例如音频部分需要进行降噪和回声消除处理,以提高音频的质量。降噪技术可以去除噪声,使语音更清晰。回声消除技术可以消除因扬声器和麦克风之间的信号反馈而产生的回声。视频部分需要进行美颜、滤镜、视频去噪等等。

在前处理环节,涉及噪声抑制、回声消除、增益控制、美声、美颜、视频去噪、人像分割等技术。

3 音视频编码
音视频编码是将原始音频和视频信号转换为一系列数字编码的过程。整个编码的过程需要在实时性要求下完成,以保证低延迟和良好的用户体验。不同的音视频编码标准和算法可以根据需求进行选择和优化,以平衡编码的效率和质量。

● 音频编码
音频通过麦克风采集、预处理、采样量化后,用编码器压缩并打包,以便传输和解码。
● 视频编码
通过摄像头采集、预处理、分帧后,用编码器压缩打包成合适格式,与音频数据一起传输和解码。
4 音视频传输
经过编码压缩后的音视频数据需要进一步传输到接收端,再进行解码处理,这其中在传输阶段分为后台传输与客户端传输两个传输阶段。

● 后台服务器传输
音视频数据在云端或服务器之间进行传输,而客户端传输则是指音视频数据在用户设备和服务端之间进行传输。
● 客户端传输
在客户端传输中,发送端的音视频数据通过流媒体协议发送给接收端,常用的协议比如RTMP,RTSP,RTP等。
5 音视频解码
音视频解码是将接收到的编码音频和视频数据转换回原始的可播放音频和视频信号的过程。这一过程需要高效的算法和硬件支持,以保证解码的及时性和质量,确保用户体验的流畅性和清晰度。

● 音频解码
接收并解包音频数据包,提取编码后的音频数据,使用解码器将其还原为数字音频信号。经过后处理如增益调节、去噪,音频信号输出到扬声器播放。
● 视频解码
接收和解包视频数据包,使用解码器将其还原为数字视频信号,并进行色彩校正和去噪处理,最后输出到显示设备。
6 音视频后处理
实时音视频的后处理是指在实时音视频流传输过程中对音频和视频数据进行处理、修正和优化的过程。音频部分常见的后处理技术有空间音频;视频部分常见的后处理技术包括视频锐化、超分算法。

● 音频后处理
进行噪声抑制、回声消除和自动增益控制,保持音量稳定。通过空间音频处理增强沉浸感,并进行音质优化,使声音更清晰自然。
● 视频后处理
进行去噪处理和视频锐化,增强图像边缘和细节。利用超分辨率算法提升分辨率,通过色彩校正确保图像色彩逼真。最后,进行帧率转换,平滑视频播放,减少卡顿和抖动。

实时音视频服务为何选择声网?

本地化服

本地化服务
快速技术支持和响应

RTC 领域唯一一个全球化服务团队,在全球超过 10个区域设有办公室,可提供就近的本地化专业服务。

全球优质网络覆盖

全球优质网络覆盖
连续八年无全网事故

覆盖全球 200+ 国家和地区,80% 丢包情况下,保障音视频通话流畅。
连续 8 年无全网事故,全年可用时间高达 99.99%。

全面兼容

全面兼容
适配 30000+ 移动终端

覆盖了 30+ 平台开发框架,30000+ 移动终端,满足海外区域复杂的平台及机型适配要求。

卓越的音视频体验

卓越的音视频体验

新一代凤鸣 AI 引擎,提供更纯净、更动听、更沉浸的音频互动体验。
新一代超级画质技术,提供低码高清、极速出图和多维画质增强,让你的用户全面高清流畅的互动体验。

灵活易用的集成方案

灵活易用的集成方案

丰富场景化经验,提供灵活的 API 组合,快速上线场景和玩法。
基于丰富的海外客户经验,提供针对各种场景的最佳实践。

安全合规有保证

安全合规有保证

通过 ISO 27001/27017/27018/27701 标准认证,完成 SOC2 “信任服务”鉴证;符合 GDPR、CCPA、COPPA、HIPAA,以及中国数据安全法、网络安全法、个人信息保护法、未成年人保护法等国际国内相关法规要求。

声网实时音视频技术的基础能力

视频通话

支持 1 对 1 和 多对多实时视频通话模式,适用于视频聊天、视频客服、远程医疗、金融双录、远程定损等场景

语音通话

支持 1 对 1 和 多对多实时语音通话模式,适用于语聊社交、游戏语音、线上KTV、电话会议、智能终端通话等场景

直播

提供3档延时直播方案,提供低延时、强同步、大并发、高质量的互动直播能力,实时连麦、极速出图、无感切屏、百万人大频道

互动直播 – 超低延时、中互动
极速直播 – 低延时、轻互动
融合CDN直播 – 传统直播

实时消息

为开发者提供一整套低延时、高并发、可扩展、高可靠的实时消息及状态同步解决方案,构建千万用户规模的实时互动应用仅需30分钟

Startup、独角兽和巨头都在使用我们服务

陌陌
陌陌

在经过连麦PK、视频聊天等社交场景的打磨,声网逐渐形成了一套成熟的“泛社交场景化解决方案”,并助力陌陌后续推出了多人缘分交友、语音电台、才艺广场等更多创新玩法。

使用产品
互动直播视频通话

唱吧
唱吧

在声网在线K歌解决方案的支持下,唱吧推出在线K歌、连麦合唱、直播等核心玩法,保障用户身处不同的网络环境中,还能保证良好的连麦 K 歌体验,实现用户数量、用户时长和营收等多重增长。

使用产品
在线K歌&合唱解决方案

荔枝
荔枝

在使用了声网直播 SDK 后,荔枝在商业化的道路上有了新的突破。上线8个月后,荔枝的语音直播打赏收入已经超过原先的广告销售业务。

使用产品
语音通话AI降噪

soul
SOUL

Soul 对K歌音质、合唱延迟,听众同步体验以及稳定性要求严苛,声网为其快速构建完整的在线K歌房,声网提供曲库组件、播放组件、歌词组件、嗨歌组件、3A 组件等 K 歌必要功能模块。

使用产品
在线K歌&合唱解决方案

yalla
Yalla

声网在超低延时互动、弱网对抗、设备适配等方面均为 Yalla 提供了最优方案和服务,为 Yalla 成为中东北非地区最具影响力的社交娱乐平台打下了坚实的技术基础。

使用产品
社交解决方案

Kumu

Kumu 先后上线了视频直播、连麦直播、直播答题、语音直播、电商直播、直播PK等多种场景功能,实现了“打造菲律宾本土内容社交平台,帮助内容创造者展示才华、创造收入”的目标定位。

使用产品
语音通话AI降噪

oasis
Oasis

通过搭载声网3D空间音频,Oasis的用户操作Avatar在Oasis的各种虚拟活动场景里移动时,可以实现根据Avatar的面部朝向、音源朝向、远近距离与上下高度,完美模拟现实听觉感受。

使用产品
语音通话AI降噪空间音频

Shopee

Shopee对音视频传输质量要求较高;网络架构设计能够应对10倍以上负荷;需支持首帧秒开。接入声网电商直播连麦技术方案,满足了Shopee对于电商直播连麦高流畅、高稳定、高并发的需求

使用产品
在线K歌&合唱解决方案

新东方
新东方

新冠期间声网为新东方提供底层实时音视频技术支持,在面对突发流量、资源紧张的情况下快速完成平稳扩容,确保了质量稳定、上线后零故障,在7天之内将其旗下80多个分校和子机构的上百万线下师生搬到线上“新东方云教室”。

使用产品
在线教育解决方案

智慧树
智慧树

疫情期间,智慧树在官网及APP上线在线语音+课件共享的直播课堂功能,免费提供给高校师生使用,并借助实时音视频云PaaS服务商声网提供的RTC,帮助师生们进行流畅、高效的线上教学互动,保障了高校师生“停课不停学”。

使用产品
视频通话互动白板

优巡
优巡

声网为优巡提供实时音视频互动技术服务,通过声网的视频通话SDK,可实现监考人员在考试过程中,实时监控画面并与考生视频通话。不仅让远程监考更加高效、便捷,还保障了监考人员和考生间的互动体验。

使用产品
在线职业教育解决方案

诺亚财富
诺亚财富

声网基于领先的实时音视频技术能力,并结合金融场景对交互、安全合规的需求,帮助诺亚财富快速上线了流畅、稳定的视频直播互动营销解决方案,并灵活支持精细化运营和可视化数据管理,实现直播+营销闭环。

使用产品
金融行业解决方案

华晨宝马
华晨宝马

声网为华晨宝马提供远程协作解决方案,在维修工作中工人只需带上AR眼镜,开启音视频互动即可轻松解决设备维修难题。在协作效率方面, 3D标注、画面缩放等功能,助力专家更快速、精准地给出相应的维修指导意见。

使用产品
协同办公解决方案

招商局
招商局

招商金科助力招商局集团推出了“招商随行”工作协同平台,上线了“随行会议”服务,底层基于声网的 RTC 技术框架,实现招商局自主可控且个性化定制的音视频会议服务。

使用产品
音视频通话互动白板

众安保险
众安保险

声网为众安保险的“远程定损理赔”业务提供了技术支撑,车主只需进入保险 APP 或者小程序的业务入口,实时视频连线定损客服,在一个视频通话里走完从报案到核赔的车险理赔流程。

使用产品
金融行业解决方案

免费集成,随用随付
每月免费10,000分钟
0 启动费用
7 x 24 小时快速响应
大客户 1v1 专家服务
1v1 集成顾问