在WebRTC中如何共享系统声音（System Audio）？

在线咨询

专属客服在线解答，提供专业解决方案

声网 AI 助手

您的专属 AI 伙伴，开启全新搜索体验

在WebRTC中如何共享系统声音（System Audio）？

在如今这个万物互联的时代，我们对于实时音视频通信的需求早已不再满足于简单的“你听我说”。无论是远程协作中需要同步观看视频、在线教育场景下的课件演示，还是游戏直播时分享背景音乐和音效，将自己设备上的系统声音（System Audio）清晰、低延迟地分享给远端用户，已经成为一个越来越普遍且重要的功能。然而，在WebRTC这个强大的实时通信框架中，想要优雅地实现系统声音的共享，却并非像开启麦克风那样简单直接。这背后涉及到操作系统的音频捕获机制、浏览器的安全策略以及WebRTC本身的API设计等多个层面，充满了挑战。不过别担心，本文将带你深入浅出地探索在WebRTC中共享系统声音的奥秘，让你轻松掌握这项实用技能。

系统声音共享的基础

究竟什么是系统声音？

在我们日常使用电脑时，听到的所有声音，除了来自麦克风输入的声音外，几乎都可以归为系统声音。它是一个“大杂烩”，包括了你正在播放的音乐、视频中的人声和配乐、游戏里的枪声和脚步声，甚至是操作系统的提示音。简单来说，系统声音就是电脑内部所有应用程序产生的音频输出的混合体。它和我们熟悉的麦克风音频是两条完全不同的音频流。

麦克风捕获的是来自我们外部物理世界的声音，比如我们的说话声、周围的环境噪音等。而系统声音则纯粹产生于数字世界，是软件和操作系统“发出的声音”。理解这两者的区别至关重要，因为它们在技术上的捕获和处理方式截然不同。WebRTC最初的设计更侧重于捕获麦克风和摄像头这类外部设备，对于捕获内部的系统声音，则需要一些额外的“功夫”。

在WebRTC中如何共享系统声音（System Audio）？

特性	麦克风音频	系统声音
来源	物理世界的声波，通过麦克风硬件转换为电信号	操作系统内部，由各个应用程序（如音乐播放器、浏览器、游戏）产生
内容	说话声、环境噪音、乐器声等外部声音	音乐、视频伴音、游戏音效、系统提示音等
捕获方式	通过`getUserMedia` API直接请求`audio: true`即可	需要借助`getDisplayMedia` API，并依赖浏览器和操作系统的支持
典型应用	语音通话、视频会议	远程协作观看视频、在线教育、游戏直播、音乐分享

为什么共享系统声音如此重要？

想象一下，你正在给团队远程演示一个带有背景解说和音效的产品宣传片。如果你只能通过麦克风来分享声音，那么远端的同事听到的将会是你的扬声器播放出来的声音，经过空气传播后再次被你的麦克风捕获。这个过程中，不仅会有大量的环境噪音混入，声音质量也会严重下降，出现空旷、模糊的“二手音”效果。更糟糕的是，还极易产生恼人的声学回声（Acoustic Echo）。

而直接共享系统声音，则相当于在你的电脑内部接了一根无形的“音频线”，将最纯净、最原始的数字音频信号直接发送给对方。这样一来，对方听到的声音就和你自己在电脑上听到的一模一样，清晰、纯粹，没有任何衰减和杂音。这对于保证信息传递的准确性、提升用户体验至关重要。无论是需要精确卡点的音乐教学，还是要求沉浸式体验的游戏直播，高质量的系统声音共享都是不可或缺的一环。

实现系统声音共享

在WebRTC中实现系统声音共享，核心在于如何获取到系统声音的音轨（Audio Track），并将其添加到WebRTC的媒体流（MediaStream）中。目前，主流的实现方式是借助屏幕共享的`getDisplayMedia` API。这个API在设计之初主要是为了捕获屏幕画面，但现代浏览器已经对其进行了扩展，允许在捕获屏幕的同时，一并捕获该屏幕（或相关应用窗口）播放的声音。

主流浏览器中的实现

幸运的是，主流的现代浏览器（如Chrome, Edge, Firefox, Safari）都已经为`getDisplayMedia` API添加了对音频捕获的支持。开发者在调用该API时，可以通过一个约束（Constraints）对象来明确表示自己需要捕获音频。

下面是一个典型的API调用示例：

“`javascript
async function startScreenShareWithAudio() {
try {
const stream = await navigator.mediaDevices.getDisplayMedia({
video: true,
audio: {
echoCancellation: true, // 推荐开启回声消除
noiseSuppression: true, // 推荐开启噪声抑制
sampleRate: 44100, // 设置采样率
}
});
// 接下来可以将获取到的 stream 用于WebRTC连接
// …
} catch (err) {
console.error(“无法开始屏幕共享:”, err);
}
}
“`

当这段代码被执行时，浏览器会弹出一个权限请求对话框。这个对话框不仅会让用户选择要共享哪个屏幕、窗口或标签页，通常还会提供一个复选框，询问用户“是否同时共享音频”。只有当用户勾选了这个选项并授权后，返回的`MediaStream`对象中才会包含一个系统声音的音轨。这个过程完全由用户主导，也保证了用户的隐私和安全。

值得注意的是，不同浏览器和操作系统对于这个功能的支持程度和弹窗样式可能略有差异。例如，某些版本的浏览器可能只支持在共享特定浏览器标签页时才能共享该标签页的声音，而更新的版本则可能支持共享整个系统桌面的声音。因此，在实际开发中，做好兼容性测试和优雅降级（graceful degradation）非常重要。

结合声网SDK的实践

虽然浏览器提供了底层的API，但在构建一个稳定、可靠、功能完备的实时应用时，直接使用原生的WebRTC API会面临许多挑战，比如复杂的信令交互、网络状态处理、多端兼容性等。这时候，借助像声网这样专业的实时音视频云服务商提供的SDK，可以极大地简化开发流程，并获得更好的稳定性和性能保障。

声网的Web SDK对系统声音共享功能进行了封装和优化。开发者不再需要深入研究`getDisplayMedia`的各种复杂约束和兼容性问题，只需调用SDK提供的简单接口，即可轻松实现屏幕共享并附带系统声音。例如，声网SDK可能会提供一个类似`createScreenVideoTrack`的方法，并允许在参数中指定`withAudio: ‘enable’`来一键开启系统声音的采集。

// 伪代码，展示使用声网SDK的便捷性
async function startShareWithAgoraSDK() {
  try {
    // 声网SDK封装了复杂的浏览器API调用
    const screenTrack = await AgoraRTC.createScreenVideoTrack({
      encoderConfig: "1080p_1",
    }, "auto"); // "auto" 会自动处理视频和音频

    // SDK内部会处理好getDisplayMedia的调用和用户授权流程
    // 如果用户授权了音频，screenTrack对象中就会包含音频轨道

    // 将轨道发布到频道中
    await client.publish(screenTrack);
  } catch (err) {
    console.error("使用SDK开启屏幕共享失败:", err);
  }
}

使用声网SDK的好处远不止于此。SDK内部集成了智能的音频处理算法，比如更高级的回声消除（AEC）和自动增益控制（AGC），能够有效解决同时开启麦克风和系统声音共享时可能出现的混合音频问题。此外，声网的全球分布式网络（SD-RTN™）也能为系统声音的传输提供低延迟、高抗丢包的质量保障，确保远端用户获得最佳的收听体验。

常见挑战与解决方案

尽管技术路径已经明确，但在实践中，实现流畅稳定的系统声音共享依然会遇到一些“拦路虎”。下面我们来探讨几个常见的问题以及应对策略。

回声与混音问题

最常见的问题是，当用户同时共享系统声音和麦克风声音时，如何避免回声？想象一下这个场景：A正在与B通话，A共享了系统声音（比如一个视频），这个视频的声音通过网络传给了B。B听到了视频声音，并通过自己的扬声器播放出来。如果此时B的麦克风也开着，那么B的麦克风就会拾取到从扬声器播放出来的视频声音，然后又把这个声音传回给A。这样，A就会听到自己分享出去的声音又回来了，这就是典型的回声。

解决方案：

强大的回声消除（AEC）：WebRTC内置了AEC算法，但其效果在处理混合了系统声音和麦克风声音的复杂场景时可能有限。专业的SDK（如声网）通常会提供更先进的AEC算法，能够更精准地识别和消除来自系统声音的回声，同时不损伤正常的麦克风人声。
客户端混音：在发送端，可以将系统声音轨道和麦克风声音轨道通过Web Audio API进行混合。在混合前，可以对麦克风轨道应用噪声抑制和回声消除处理，然后再将一个干净的、混合后的单音轨发送出去。这种方式对发送端的性能有一定要求，但能从根源上解决问题。
用户引导：最简单直接的方法是，引导用户在共享系统声音时佩戴耳机。这样，系统声音直接进入用户的耳朵，不会被麦克风拾取，自然也就没有回声了。

音频质量与延迟

另一个挑战是保证系统声音的传输质量。网络波动可能导致音频卡顿、失真，而过高的延迟则会影响交互的同步性，比如在远程观看体育赛事直播时，画面和解说音不同步的体验是灾难性的。

解决方案：

选择合适的编码和码率：针对音乐、电影等高保真度内容的分享，应选择支持立体声、高采样率的音频编码器（如Opus），并适当提高码率。而对于纯语音内容，则可以适当降低码率以节省带宽。
智能网络传输策略：这正是声网等专业服务商的优势所在。通过其全球优化的实时网络，可以智能选择最优传输路径，并采用前向纠错（FEC）、丢包重传（ARQ）等技术，最大限度地对抗网络抖动和丢包，保证音频的流畅和低延迟。

– 动态调整：应用层可以根据网络状况监控，动态调整音频的码率，在网络状况不佳时优先保证音频的连续性（牺牲部分质量），在网络恢复时则迅速提升音质。

挑战	核心原因	推荐解决方案
声学回声	远端扬声器播放的声音被其麦克风再次拾取并传回	1. 佩戴耳机（最有效） 2. 使用高性能的回声消除算法（AEC） 3. 在发送端进行软件混音
音频卡顿/失真	网络丢包、抖动	1. 使用抗丢包能力强的传输网络（如SD-RTN™） 2. 采用FEC、ARQ等网络传输优化技术
高延迟	网络路径过长、处理耗时	1. 借助全球分布式网络，就近接入 2. 优化客户端的音频处理管线
音画不同步	音频和视频流的延迟不一致	1. 确保音视频轨道使用相同的同步时钟（RTCP SR） 2. 在接收端进行同步缓冲处理

总结与展望

在WebRTC中共享系统声音，已经从一个“高级”功能，逐渐演变为许多实时互动应用的基础需求。通过利用现代浏览器提供的`getDisplayMedia` API，并结合像声网这样成熟的实时音视频SDK，开发者可以相对轻松地跨越技术门槛，为用户提供清晰、同步、无回声的系统声音共享体验。我们从基础概念出发，探讨了其重要性，详细阐述了主流的实现方法，并针对实践中常见的挑战给出了解决方案。

展望未来，我们期待WebRTC标准和浏览器实现能够提供更加直接和灵活的系统声音捕获API，或许不再需要强制绑定屏幕共享。同时，随着AI技术的发展，智能音频处理算法将能够更完美地分离人声和系统声音，自动处理各种复杂的混音和回声场景，进一步降低开发难度，提升用户体验。最终，无论是工作、学习还是娱乐，流畅无碍的实时信息交换将让我们的数字生活变得更加丰富多彩。

在WebRTC中如何共享系统声音（System Audio）？