HRTF(Head-Related Transfer Function,头部相关传输函数)描述了声音从空间中某个位置传播到人的左右耳朵时,因头部、耳廓、肩膀的阻挡和反射而产生的频谱变化。这些变化包含了声音的方位信息,大脑通过解读这些信息来判断声源位置。
戴上耳机听音乐时,声音通常只有左右区分,听起来像是”在脑子里”。但如果用HRTF处理过的音频,即使是普通立体声耳机,也能让你感觉到声音从前方、后方、上方甚至斜上方传来。这就是3D音效或双耳音频的原理。
HRTF技术广泛应用于VR游戏、空间音频、影视制作等领域。在实时音视频通信中,HRTF是实现虚拟会议室、元宇宙空间音频的基础技术。本文将详细介绍HRTF如何工作、如何测量,以及为什么它对每个人都不太一样。

一. 耳机的局限:为什么普通立体声听起来是平的
普通立体声耳机只有左右两个声道。音乐制作时,工程师会把不同乐器分配到左声道或右声道,或者混合在中间。你戴上耳机,左耳听到左声道,右耳听到右声道,能分辨出声音的左右位置。
但仅此而已。你没办法判断声音是来自正前方还是正后方,是平视高度还是头顶上方。所有声音听起来都在一个平面上,甚至感觉像是”贴在耳朵上”或”在脑袋里响”。
这是因为耳机绕过了声音在真实世界中的传播过程。真实世界中,声音从音箱传到你耳朵之前,会经过空气传播、被头部阻挡、被耳廓反射。这些物理过程会改变声音的频谱和时间特性,而这些改变恰恰是大脑用来判断方位的线索。
耳机直接把声音送进耳道,跳过了这些物理过程,自然也就丢失了方位信息。
二. 真实世界的声音定位线索
人能准确判断声源方位,依靠的是几个关键线索。
双耳时间差
声音从左边传来时,会先到达左耳,稍后才到达右耳。两只耳朵相距约21.5厘米,时间差大概是几十微秒到几百微秒,取决于声源的方位角。
这个时间差虽然极短,但大脑能敏锐捕捉。这是判断水平方向最重要的线索。声音频率越低,时间差越明显。所以低频声音的方位判断主要靠时间差。
双耳强度差
声音从左边传来,左耳听到的音量比右耳大。因为头部会阻挡声音,右耳在”声影区”,接收到的声波被削弱了。
这个强度差和频率有关。高频声音波长短,更容易被头部阻挡,强度差明显。低频声音波长长,能绕过头部,强度差很小。所以高频声音的方位判断主要靠强度差。
耳廓的频谱变化
前面的时间差和强度差,只能解决水平面上的定位。但如果声音来自正前方或正后方,两只耳朵的时间差和强度差都很接近,怎么区分?
这时候耳廓起作用了。耳廓有复杂的凹凸结构,声波经过时会产生反射、衍射、共振。不同方向来的声音,经过耳廓后的频谱变化不同。
比如来自前上方的声音,某些频率会被耳廓增强,某些会被削弱。来自后方的声音,增强和削弱的频率段又不一样。大脑通过识别这些频谱特征,判断声音是来自前方还是后方、上方还是下方。
这个过程非常依赖个体差异。每个人的耳廓形状都不同,频谱变化也就不同。所以通用的HRTF对有些人效果好,对有些人效果差。
三. HRTF是什么
HRTF就是把上面这些物理过程量化成数学函数。
它描述的是:一个声音从空间中某个特定位置(比如左前方45度、仰角30度)传到人的耳朵时,频谱会发生什么变化。
具体来说,HRTF是一对滤波器。一个用于左耳,一个用于右耳。把原始声音信号通过这对滤波器处理,输出的左右声道信号就包含了方位信息。
数学表达
在频域,HRTF可以表示为:
H(f, θ, φ) = |H(f, θ, φ)| · ejΦ(f, θ, φ)
其中:
- f 是频率
- θ 是水平方位角
- φ 是仰角
- |H| 是幅度响应(频谱变化)
- Φ 是相位响应(时间延迟)
左右耳各有一个这样的函数。它们的差异反映了时间差、强度差和频谱差。
时域表达
在时域,HRTF是一对脉冲响应(HRIR,Head-Related Impulse Response)。把这对脉冲响应和原始音频做卷积,就得到了经过头部和耳廓”滤波”后的双耳信号。
实际应用中,通常使用HRIR,因为时域卷积更直观,也更容易实现。
四. 如何测量HRTF
HRTF需要在实验室里测量。
测量环境
测量必须在消声室进行。消声室的墙壁、地面、天花板都覆盖吸声材料,把反射降到最低。这样测到的HRTF才是纯粹的头部和耳廓效应,不包含房间反射。
假人头
测量HRTF通常使用假人头,比如最常用的KEMAR(Knowles Electronics Manikin for Acoustic Research)。
KEMAR是一个按真人头部和躯干1:1制作的模型,耳道位置装有微型麦克风。它的头部形状、耳廓结构都接近人类平均值。
有些实验室也会用真人做测量,但过程很耗时。受试者要坐在消声室中间保持静止,头部不能动,连续测几个小时。
测量流程
- 把假人头或受试者放在消声室中心
- 在周围布置多个扬声器,或者用一个扬声器旋转到不同位置
- 从某个位置播放测试信号(通常是扫频信号或脉冲)
- 记录左右耳麦克风接收到的信号
- 通过信号处理计算出该位置的HRTF
- 重复步骤3-5,覆盖整个球面(前后左右上下各个方向)
典型的HRTF测量会在水平面和垂直面上取若干个采样点。比如水平方向每隔5度一个点,垂直方向每隔10度一个点,总共需要测几百个甚至上千个位置。
已有的HRTF数据库
因为测量成本高,学术界和工业界建立了一些公开的HRTF数据库供研究和应用使用:
- MIT KEMAR:麻省理工学院测量的KEMAR假人头HRTF,最早也是最常用的数据库之一
- CIPIC:加州大学戴维斯分校的CIPIC实验室测量了45个受试者的HRTF
- SADIE:约克大学的数据库,包含多个假人头和真人的测量数据
- ARI:奥地利声学研究所的高分辨率HRTF数据库
这些数据库通常是开源的,研究人员和开发者可以免费下载使用。
五. 如何用HRTF制作3D音效
有了HRTF数据,就可以合成双耳音频了。
基本流程
假设你要制作一个声音从左前方45度传来的效果:
- 从HRTF数据库中找到”左前方45度”对应的左右耳脉冲响应
- 把原始音频信号分别和左耳、右耳的脉冲响应做卷积
- 得到两路输出,分别送到耳机的左右声道
用户戴上耳机,听到的声音就会有”来自左前方45度”的方位感。
动态位置
如果声源在移动,或者听者在转头,需要实时更新HRTF。
比如VR游戏中,玩家转头向左,原本在正前方的声源现在相对位置变成了右前方。系统要检测到头部转动,重新选择对应的HRTF,用新的脉冲响应处理音频。
这个切换要足够快,延迟不能超过几十毫秒,否则方位感会滞后,破坏沉浸感。
插值
HRTF数据库通常只覆盖离散的采样点。如果声源位置刚好在两个采样点之间,需要做插值。
最简单的是线性插值,把相邻采样点的HRTF按距离加权混合。更复杂的方法会考虑球面几何和相位连续性。
六. 通用HRTF的局限
大多数3D音效应用使用的是通用HRTF,比如MIT KEMAR的数据。这对很多人有效,但不是对所有人都完美。
个体差异
每个人的头部大小、耳廓形状都不一样。有人耳廓大,有人耳廓小;有人耳轮明显,有人耳轮平。这些差异会导致HRTF不同。
用通用HRTF可能会出现:
- 前后混淆:把前方的声音听成后方,或者反过来
- 方位偏移:实际在左前方的声音,听起来像在正左边
- 距离感不准:近处的声音听起来很远
前后判断问题
前后混淆最常见。这是因为前后方向主要靠耳廓的频谱线索,而耳廓形状个体差异最大。
有些人戴耳机听3D音频时,能准确判断左右和上下,但前后总是搞混。这通常不是技术问题,而是HRTF不匹配。
七. 个性化HRTF
理想情况下,每个人都应该用自己的HRTF。但测量成本太高,不适合大规模应用。
测量方法
个性化HRTF的传统测量方法和前面说的一样:在消声室里,用麦克风和扬声器阵列测几个小时。
这种方法精度高,但需要专业设备和场地,普通用户做不了。
基于照片的估算
近年来,有些研究尝试用照片估算HRTF。
用户用手机拍几张耳朵的照片,算法分析耳廓的几何特征,然后从数据库中找最接近的HRTF,或者用机器学习生成定制的HRTF。
这种方法精度不如实测,但成本低,用户体验好。部分高端耳机和VR设备开始提供这种功能。
自适应校准
另一种方法是让用户做听力测试。
播放来自不同方向的声音,让用户指出听到的方位。系统根据用户的反馈,调整HRTF参数,直到用户能准确判断方位。
这个过程需要几分钟,但不需要额外硬件,可以在手机或电脑上完成。
八. HRTF在不同应用中的使用
VR和AR
VR头显通常内置头部追踪,可以实时检测头部转动。结合HRTF,能实现非常逼真的空间音频。当你在VR中转头,声音的方位会跟着变化。如果没有HRTF,即使画面是3D的,声音还是平的,沉浸感会大打折扣。
游戏
FPS游戏中,能通过脚步声判断敌人位置是很重要的战术信息。HRTF让玩家能准确定位声源,不只是左右,还有前后和上下。有些游戏(如《CS:GO》《绝地求生》)专门优化了HRTF音效。玩家可以在设置里开启或关闭。
音乐和影视
音乐制作人可以用HRTF把立体声混音转成双耳音频。听众戴上耳机,能体验到类似现场演出的空间感。电影也可以用HRTF制作沉浸式音效。Netflix、Apple TV+等流媒体平台已经开始提供支持空间音频的内容。
实时通信
在元宇宙、VR社交、虚拟会议中,HRTF让多人语音通话更自然。每个人的声音从不同方位传来,你能很清楚地分辨谁在说话。这比传统会议中所有人的声音混在一起要清晰得多。
声网的空间音频SDK在底层使用HRTF技术,基于头部相关传输函数、心理感知声学、声源指向模拟等算法自研了3D声场渲染引擎。开发者可以快速集成到自己的应用中,实现虚拟空间的沉浸式音频体验。
九. 实时HRTF处理的挑战
在实时应用中使用HRTF,计算性能是个挑战。
卷积计算量
每一路音频都要和HRTF做卷积。HRIR通常有几百个采样点,做时域卷积计算量不小。如果是10人会议,每个人都要处理其他9个人的音频,就是9次卷积。如果用户设备性能不够,可能会卡顿或延迟。
优化方法
频域卷积比时域卷积快。把音频和HRIR都转到频域,做乘法,再转回时域。这样可以减少计算量,但会增加延迟(需要积累一定长度的音频才能做FFT)。
另一种方法是简化HRTF。不使用完整的几百点脉冲响应,而是用参数化的模型,只保留关键特征。精度会下降,但计算量小很多。
移动设备还可以利用硬件加速。部分芯片有专门的DSP单元,可以高效处理卷积运算。
十. 未来发展方向
HRTF技术还在不断进步。
AI生成HRTF
机器学习可以用来预测个性化HRTF。训练一个神经网络,输入是耳朵照片或头部扫描,输出是HRTF参数。
这种方法不需要在消声室里测量,用户在家就能完成。虽然精度可能不如实测,但对大多数应用已经够用了。
动态HRTF
目前的HRTF假设头部是刚性的,不考虑肌肉和软组织的运动。但真人在说话、咀嚼、张嘴时,头部形状会微妙变化。
未来可能会有动态HRTF,根据面部动作实时调整。这在VR社交中会很有用,因为你的虚拟化身也会有表情和动作。
更高分辨率数据
现有的HRTF数据库空间分辨率有限。如果声源在两个采样点之间,需要插值,可能不够精确。
随着测量技术进步,未来的HRTF数据库可能会有更高的角度分辨率,插值误差更小。
十一. 总结
HRTF通过量化声音经过头部和耳廓的物理变化,让普通耳机也能呈现3D音效。它依赖双耳时间差、强度差和耳廓的频谱变化这些线索。
HRTF需要在消声室中测量,通常使用假人头或真人。已有的公开数据库为开发者提供了便利,但通用HRTF对个体适配度不同,个性化HRTF是未来发展方向。
实时HRTF处理面临计算性能挑战,需要通过频域卷积、参数化模型、硬件加速等方法优化。
在VR、游戏、音乐、实时通信等领域,HRTF已经成为3D音效的基础技术。随着AI、动态HRTF、高分辨率数据的发展,空间音频体验会越来越逼真。
