打开一个直播间,主播说话的声音几乎同步传到你的耳朵里。和远在地球另一端的同事开视频会,画面流畅得像面对面交谈。这些看似理所当然的体验,背后都依赖着一个关键问题的解决:如何让数据在复杂的互联网环境中,既快又稳地到达目的地?
传统的互联网基础设施是为网页浏览、文件下载这类场景设计的。延迟几秒钟,用户可能不会察觉。但实时音视频不一样,长时间的延迟就能让对话变得尴尬,让互动变得困难。这就是 SD-RTN 实时传输网络要解决的核心问题。
一. SD-RTN基础定义

SD-RTN 是 Software Defined Real-time Network 的缩写,即软件定义实时网,这是声网自建的底层实时传输网络。简单说,它是一个专门为实时互动场景优化的全球网络基础设施。
传统 CDN 的设计思路是把内容缓存到离用户近的节点,用户访问时从最近的节点下载。这对视频点播很有效,但实时互动不能缓存。两个人视频通话,A 说的话不可能提前存到 CDN 节点上等 B 来取。数据必须实时产生、实时传输、实时到达,任何一个环节慢了,体验就打折扣。
SD-RTN 构建了以覆盖网络为主要思想的低延时高可靠性网络,配合基于 UDP 的多路复用传输协议 AUT,为实时通信服务提供了底层网络保障。它不是简单地把服务器铺到全球各地,而是通过软件定义的方式,让这些节点形成一个能够智能调度、动态优化的整体。
二. 搭建专属实时传输网络的必要性
公共互联网的问题在于不可预测。你从北京访问上海的服务器,数据包可能走电信的线路,也可能走联通的线路,中间经过多少跳、遇到多少拥塞,没人能保证。
网络质量的波动在浏览网页时不明显,但在实时互动场景下会被无限放大。实时音视频应用对长距离网络传输的低延时和高可靠性带来了新的挑战和需求。
例如,一场电商直播,观众问主播这件衣服有没有 M 码,主播回答的时候观众可能已经退出了。
专门的实时传输网络通过全球节点覆盖、智能路由选择、网络质量监控和弱网对抗四大核心能力,彻底解决公网传输不稳定难题。
三. SD-RTN核心技术架构思路

分层解耦设计
SD-RTN 采用协议分层设计,将实时通信服务和网络传输解耦。传统的 WebRTC 实现往往把媒体处理和网络传输耦合在一起,这让系统变得复杂且难以优化。
SD-RTN 的做法是把网络传输独立成一层,专门负责把数据包从 A 点高效可靠地送到 B 点,上层的音视频编解码、业务逻辑不用关心底层网络怎么走。
这种分层带来的好处是专业化。网络工程师可以专注优化传输质量,音视频工程师可以专注优化编解码效果,各自在自己擅长的领域发挥。
全球节点组网
声网在全球部署 200 多个数据中心,通过智能动态路由算法,确保全球范围内的毫秒级超低延迟传输。这些数据中心不是孤立的点,而是通过专线和优化过的公网路径连接成网。
当用户发起通话时,系统会实时计算最优路径。比如从印度到中国的连接,可能不是直连,而是经过新加坡或香港的节点中转,因为这条路径虽然多了一跳,但总延迟更低、丢包率更小。
四. SD-RTN智能调度系统
SD-RTN 调度系统是一组实时的智能化并行计算服务,根据全网汇总来的链路质量、节点间的实时传输带宽、QoS 要求和转发节点的负载等,来计算和下发网内的数据流的路由。
这个调度过程是动态的。网络状况在不断变化,某条线路突然拥塞了,某个节点负载过高了,调度系统会实时感知并调整路由。用户不会感觉到切换的过程,只会发现通话一直很流畅。
调度系统还会做容量评估。链路探测和容量评估系统根据一定的调度策略,定期测试不同服务器集群间的网络质量数据,分析网络模型,尤其是有损网络下的质量。这些数据会反馈到路由决策中,让系统知道哪条路能走、哪条路走不通。
五. 多场景差异化质量保障
不是所有实时应用对延迟的要求都一样。SD-RTN 重点关注了以下几个指标并进行持续优化:
- 2s 时延内的包投递到达率在 99.9% 以上的达标服务时间。该指标针对一般直播类业务观众端的时延需求。该指标达标时,绝大部分直播观众端在无其他因素影响下,能够流畅无卡顿。
- 800ms 时延内的包投递到达率在 99.9% 以上的达标服务时间。该指标针对 Agora 极速直播业务场景下的观众端的质量要求
- 200ms 时延内的包投递到达率在 99.9% 以上的达标服务时间。该指标关注普通 RTC的通信需求。该指标达标时,通信双方可以流畅对话,而无延时感和抢话的情形
不同的指标意味着不同的资源分配策略。对于要求 200 毫秒延迟的通话,系统会优先选择跳数更少的路径,即使带宽利用率不是最优。对于可以容忍 2 秒延迟的直播,系统可以选择带宽更充足但绕路的路径,保证稳定性。
六. 弱网环境传输对抗能力
移动网络环境复杂多变。用户可能在高铁上,可能在电梯里,可能在信号不好的地下室。这些场景下,丢包率可能达到 30% 甚至更高。
SD-RTN 基于 UDP 协议,在异构网络下不依赖特定硬件和软件,可以针对不同的 QoS 需求进行路由实时选择和流量调度。UDP 本身不保证可靠性,但在实时场景下这反而是优势。TCP 遇到丢包会重传,重传会带来延迟抖动。UDP 配合上层的前向纠错(FEC)、自适应码率等技术,可以在保证低延迟的同时对抗丢包。
当网络质量下降时,系统不是简单地让画面卡住,而是动态调整策略。降低视频分辨率、增加冗余数据、切换编码档位,通过这些手段保证用户能继续通话,即使质量有所下降,也好过完全中断。
七. 全球组网核心应用价值
SD-RTN 在全球部署 250 多个数据中心,这意味着无论用户在哪里,都能就近接入。一个印度用户和一个美国用户连麦,数据不需要绕地球半圈,而是在中东或欧洲的节点汇聚,大大降低了延迟。
对于出海应用来说,这种全球覆盖尤其重要。东南亚、南美、非洲等地区的网络基础设施相对薄弱,运营商之间的互联互通也不理想。依赖公共互联网很难保证服务质量。有了遍布全球的专用节点和优化路径,应用可以给这些地区的用户提供和国内同等质量的体验。
八. SD-RTN传输安全机制
实时传输涉及用户的音视频数据,安全性至关重要。SD-RTN 在传输过程中没有任何可对传输的信息进行解密的密钥,通话内容信息只能在终端设备上通过客户授权密钥才能解密。传输层提供加密通道,但不触碰内容本身,保证了端到端的隐私。
网络基础设施还需要抵御 DDoS 等攻击。声网在每个核心云数据中心配置了反 DDoS 防火墙,在全球有两百多个分布式数据中心,有足够的能力和资源控制 DDoS 的风险。分布式架构的好处是,即使某个节点被攻击,流量可以快速切换到其他节点,保证服务不中断。
结语
语音 AI 正在重塑人机交互方式。社交应用通过集成实时对话智能体,丰富用户互动方式,如虚拟角色互动、情感陪伴等。在社交平台上,AI 数字人可以提供全天候陪伴,进行自然流畅的语音对话。这类应用对网络延迟极为敏感,200 毫秒的卡顿就会让对话变得不自然,破坏沉浸式体验。
智能硬件的互联互通同样依赖低延迟网络。智能硬件依托于嵌入的实时对话智能体,实现传统硬件的智能化改造,从而为用户提供情感陪伴、智能教育、实时看护以及多端控制与联动。智能音箱、教育机器人、陪伴型设备之间的协同,需要实时同步状态和指令。如果网络延迟过高,用户说 “打开卧室的灯”,可能等几秒钟才亮,这种体验远谈不上 “智能”。
实时传输网络的价值,不仅在于技术指标,更在于它让原本不可能的应用场景变成了现实。当网络不再是瓶颈,开发者可以把精力放在产品创新上,而不是整天和网络问题搏斗。用户也能真正享受到实时互动带来的价值,而不是被卡顿、延迟、掉线折磨。