在线咨询

专属客服在线解答，提供专业解决方案

工单支持

专业技术支持团队，随时响应服务需求

首页博客正文

MOS评分是什么？如何用主观质量评估优化 RTC 体验

2026-05-06

图之

实时音视频行业百科

MOS评分是什么

一. MOS评分是什么？

MOS（Mean Opinion Score，平均意见分） 是一种主观质量评估标准，用于衡量音频、视频通话的用户体验质量。它通过让真实用户对通话质量进行打分，然后计算平均值，得出一个1到5分的评分结果。

MOS评分最早由国际电信联盟（ITU-T）在P.800标准中定义，最初用于评估传统电话网络的语音质量,如今已广泛应用于VoIP、视频会议、在线教育、直播连麦等实时音视频（RTC）场景。

MOS评分的核心价值

在RTC领域，技术指标如延迟、丢包率、码率虽然重要，但最终决定用户是否继续使用的，是主观感受。MOS评分将复杂的技术参数转化为用户可感知的体验质量，是连接技术与业务的关键桥梁。

二. MOS评分等级标准

根据ITU-T P.800标准，MOS评分分为5个等级：

MOS分值	质量等级	用户感受	典型场景
4.3 – 5.0	优秀（Excellent）	非常清晰，无明显瑕疵	固定电话、高质量视频会议
4.0 – 4.3	良好（Good）	清晰，偶有轻微杂音	4G网络通话、主流RTC应用
3.6 – 4.0	一般（Fair）	可接受，但有明显瑕疵	弱网环境、压缩率高的场景
3.1 – 3.6	较差（Poor）	勉强可用，体验不佳	严重丢包、高延迟场景
1.0 – 3.1	差（Bad）	几乎无法使用	极端弱网、严重故障

行业共识：

MOS > 4.0：用户满意，适合商用
MOS 3.5-4.0：可用，但需要优化
MOS < 3.5：用户体验差，急需改进

三. MOS评分如何计算？

主观测试法（传统方法）

这是MOS最原始的测量方法，步骤如下：

招募测试者：通常需要20-30名测试者，代表目标用户群体
准备测试样本：录制或实时播放不同质量的音频/视频片段
评分：测试者根据自身感受，给每个样本打1-5分
计算平均值：所有测试者的分数求平均，得出MOS值

公式：

MOS = (评分1 + 评分2 + ... + 评分N) / N

优点：最接近真实用户感受
缺点：成本高、耗时长、无法实时监控

客观评估法（自动化方法）

为了解决主观测试的局限性，业界开发了多种客观评估算法，通过技术指标预测MOS分值：

1）PESQ（Perceptual Evaluation of Speech Quality）

标准：ITU-T P.862
应用：窄带和宽带语音质量评估
原理：对比原始音频和传输后音频的差异
MOS范围：-0.5 到 4.5（通常转换为1-5）

2）POLQA（Perceptual Objective Listening Quality Assessment）

标准：ITU-T P.863
应用：超宽带语音（50Hz-14kHz）
优势：适配现代高清语音编解码器（如Opus）
MOS范围：1.0 到 4.5

3）VISQOL（Virtual Speech Quality Objective Listener）

开发者：Google
特点：开源、支持全带宽音频
应用：RTC、VoIP场景

4）VMAF（Video Multimethod Assessment Fusion）

开发者：Netflix
应用：视频质量评估
原理：结合多种算法预测视频MOS

基于网络参数的估算模型

在实时RTC场景中，常用E-model（ITU-T G.107）通过网络参数快速估算MOS：

核心参数：

延迟（Delay）
丢包率（Packet Loss）
抖动（Jitter）
编解码器类型

估算公式（简化版）：

R = R0 - Is - Id - Ie + A
MOS = 1 + 0.035R + R(R-60)(100-R) × 7 × 10^-6

其中：

R0：基础信噪比
Is：同时通话损伤
Id：延迟损伤
Ie：编码器损伤
A：期望因子

声网水晶球质量分析平台采用改进的E-model算法，结合实时网络参数和机器学习模型，预测每次通话的MOS分值，准确率达90%以上。

四. 为什么MOS评分对RTC至关重要？

1. 用户留存的关键指标

研究表明，MOS评分每降低0.5分，用户流失率上升20%-30%。在竞争激烈的RTC市场，通话质量直接决定用户是否继续使用产品。

2. 业务决策的数据依据

产品优化：识别质量瓶颈（是网络问题还是编解码器问题？）
成本控制：平衡带宽成本与用户体验（降低码率是否影响MOS？）
SLA保障：将MOS纳入服务等级协议（如承诺MOS > 4.0）

3. 技术优化的北极星指标

单一技术指标（如延迟）的优化可能以牺牲其他指标为代价，而MOS是综合体验的量化，能指导技术团队做出平衡决策。

五. 如何测量和优化RTC场景的MOS评分？

测量方法

方法一：实验室测试

适合产品研发阶段，通过弱网模拟工具（如NetEm、WANem）构建不同网络环境：

搭建测试环境：模拟5%、10%、30%丢包场景
录制通话样本：采集不同条件下的音视频
PESQ/POLQA评估：使用专业工具计算MOS
主观验证：小规模用户测试确认客观分值准确性

方法二：真实场景监控

适合生产环境，通过SDK埋点实时采集数据：

声网方案：

客户端SDK自动上报网络指标（延迟、丢包、抖动）
云端实时计算预测MOS
水晶球平台可视化展示每次通话的质量曲线

优化策略

1）网络层优化

降低延迟：

使用CDN边缘节点就近接入
智能路由选择最优传输路径
声网SD-RTN™专网绕过拥塞节点

对抗丢包：

FEC（前向纠错）：发送冗余数据包
ARQ（重传）：关键帧丢失时快速重传
丢包隐藏（PLC）：用算法”脑补”丢失的音频帧

平滑抖动：

自适应Jitter Buffer：动态调整缓冲区大小
声网实践：在300ms延迟内吸收80%的网络抖动

2）编解码器优化

选择高效编解码器：

音频：Opus（支持6kbps-510kbps，MOS可达4.3）
视频：H.264（成熟稳定）、H.265（带宽节省50%）、AV1（未来趋势）

动态码率调整：

根据网络带宽实时调整编码码率
声网策略：检测到丢包立即降码率，网络恢复后逐步提升

3）音频前处理（3A算法）

AEC（回声消除）：消除扬声器反馈，提升MOS约0.3-0.5分
ANS（噪声抑制）：去除背景噪音（键盘声、风噪），MOS提升0.2-0.4分
AGC（自动增益控制）：标准化音量，避免忽大忽小

4）视频质量增强

超分辨率：AI算法将低分辨率视频提升至高清，视觉MOS提升明显
低照度增强：暗光环境自动提亮，改善画质
动态调整分辨率：弱网时降低分辨率保证流畅，优于卡顿的高清

六. 声网如何实时监控MOS分值

声网水晶球质量分析平台

声网提供业界领先的实时质量监控系统，核心能力包括：

1）全链路数据采集

客户端：SDK自动上报音视频质量指标（每秒更新）
服务端：记录传输路径、节点性能
网络层：监控带宽、丢包、延迟、抖动

2）实时MOS计算

基于机器学习模型，综合30+维度参数实时预测MOS：

音频MOS：POLQA算法 + 网络参数修正
视频MOS：VMAF算法 + 用户行为数据

3）可视化质量分析

通话详情页：

MOS曲线图：展示通话全程质量波动
根因分析：自动识别质量下降原因（网络切换？CPU过载？）
对比分析：主叫方 vs 被叫方质量差异

聚合报表：

按地区、运营商、设备型号统计平均MOS
识别质量洼地（如某地区MOS持续<3.5）
趋势分析：版本更新对MOS的影响

4）智能告警

实时告警：单次通话MOS < 3.0立即推送
阈值告警：某时段平均MOS低于预设值
异常检测：MOS突然下降超过0.5分

5）质量优化建议

水晶球根据数据分析，自动生成优化建议：

“检测到华北地区联通用户丢包率高，建议启用FEC”
“iOS设备在低电量模式下MOS下降0.4分，建议优化功耗”

七. MOS优化的最佳实践

1. 建立MOS监控体系

全量监控：100%通话记录MOS，而非抽样
分层分析：按地区、网络、设备、场景细分
趋势跟踪：每日、每周MOS变化趋势

2. 设定合理的MOS目标

根据业务场景设定差异化目标：

1v1视频面试：MOS > 4.2（高质量要求）
语聊房：MOS > 3.8（音质优先）
大班课：主讲MOS > 4.0，听众MOS > 3.5（资源倾斜）

3. 持续优化迭代

AB测试：新算法上线前，对比MOS变化
快速响应：MOS告警后1小时内定位问题
用户反馈闭环：将主观投诉与MOS数据关联

4. 平衡成本与体验

弹性策略：高峰时段保证MOS，低峰时段降低成本
分级服务：付费用户享受更高MOS保障
智能降级：极端弱网时优先保证音频MOS

八. 常见问题FAQ

Q1：MOS评分4.0和4.2的区别大吗？

A：虽然数值差异仅0.2，但用户感知明显不同。MOS 4.2属于”优秀”等级，用户几乎感受不到瑕疵；MOS 4.0属于”良好”，偶有轻微杂音或卡顿。对于付费用户或企业级应用，这0.2分的差距可能决定续费率。

Q2：为什么我的技术指标很好，但MOS不高？

A：MOS是综合指标，单一参数优秀不代表整体体验好。例如：

延迟仅100ms，但丢包率10%，MOS仍可能<3.5
码率很高，但编解码器效率低，音质反而不如低码率Opus
网络指标正常，但客户端CPU过载导致解码延迟

建议用水晶球等工具做全链路诊断。

Q3：主观MOS测试和客观算法预测哪个更准？

A：主观测试最接近真实感受，但成本高且无法实时监控。客观算法（如POLQA）在标准场景下准确率可达90%，适合大规模监控。

Q4：不同场景的MOS标准一样吗？

A：不同。语音通话MOS > 4.0即可，但音乐教学（如钢琴陪练）需要MOS > 4.3才能保证音质细节。视频会议对视频MOS要求相对宽松（3.8即可），但金融双录等场景需要4.0+以保证清晰度。

Q5：如何快速提升MOS？

A：优先解决”短板”：

检查丢包率：>5%时启用FEC
优化音频前处理：启用3A算法
升级编解码器：Opus比G.711可提升0.5-1.0分
使用CDN节点：降低延迟和抖动

九. 总结

MOS评分是RTC领域最重要的质量指标，它将复杂的技术参数转化为用户可感知的体验分数。通过建立完善的MOS监控体系，企业可以：

量化用户体验：从”感觉卡”到”MOS低于3.8″
精准定位问题：是网络问题、编码问题还是设备问题
数据驱动优化：用MOS指导技术决策和资源分配
保障SLA承诺：向客户提供可验证的质量保证

声网作为全球领先的实时互动云服务商，通过SD-RTN™专网 + 智能算法 + 水晶球监控平台，帮助客户在200+国家和地区实现高质量通话。无论是在线教育的万人大班课，还是社交娱乐的千人语聊房，声网都能提供稳定可靠的质量保障。

参考资料

ITU-T P.800: Methods for subjective determination of transmission quality
ITU-T P.862: Perceptual evaluation of speech quality (PESQ)
ITU-T P.863: Perceptual objective listening quality assessment (POLQA)
ITU-T G.107: The E-model: a computational model for use in transmission planning

在声网，连接无限可能

想进一步了解「对话式 AI 与实时互动」？欢迎注册，开启探索之旅。

注册体验

本博客为技术交流与平台行业信息分享平台，内容仅供交流参考，文章内容不代表本公司立场和观点，亦不构成任何出版或销售行为。