在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验

什么是HRTF?如何让耳机实现3D音效

HRTF(Head-Related Transfer Function,头部相关传输函数)描述了声音从空间中某个位置传播到人的左右耳朵时,因头部、耳廓、肩膀的阻挡和反射而产生的频谱变化。这些变化包含了声音的方位信息,大脑通过解读这些信息来判断声源位置。

戴上耳机听音乐时,声音通常只有左右区分,听起来像是”在脑子里”。但如果用HRTF处理过的音频,即使是普通立体声耳机,也能让你感觉到声音从前方、后方、上方甚至斜上方传来。这就是3D音效或双耳音频的原理。

HRTF技术广泛应用于VR游戏、空间音频、影视制作等领域。在实时音视频通信中,HRTF是实现虚拟会议室、元宇宙空间音频的基础技术。本文将详细介绍HRTF如何工作、如何测量,以及为什么它对每个人都不太一样。

什么是HRTF


一. 耳机的局限:为什么普通立体声听起来是平的

普通立体声耳机只有左右两个声道。音乐制作时,工程师会把不同乐器分配到左声道或右声道,或者混合在中间。你戴上耳机,左耳听到左声道,右耳听到右声道,能分辨出声音的左右位置。

但仅此而已。你没办法判断声音是来自正前方还是正后方,是平视高度还是头顶上方。所有声音听起来都在一个平面上,甚至感觉像是”贴在耳朵上”或”在脑袋里响”。

这是因为耳机绕过了声音在真实世界中的传播过程。真实世界中,声音从音箱传到你耳朵之前,会经过空气传播、被头部阻挡、被耳廓反射。这些物理过程会改变声音的频谱和时间特性,而这些改变恰恰是大脑用来判断方位的线索。

耳机直接把声音送进耳道,跳过了这些物理过程,自然也就丢失了方位信息。


二. 真实世界的声音定位线索

人能准确判断声源方位,依靠的是几个关键线索。

双耳时间差

声音从左边传来时,会先到达左耳,稍后才到达右耳。两只耳朵相距约21.5厘米,时间差大概是几十微秒到几百微秒,取决于声源的方位角。

这个时间差虽然极短,但大脑能敏锐捕捉。这是判断水平方向最重要的线索。声音频率越低,时间差越明显。所以低频声音的方位判断主要靠时间差。

双耳强度差

声音从左边传来,左耳听到的音量比右耳大。因为头部会阻挡声音,右耳在”声影区”,接收到的声波被削弱了。

这个强度差和频率有关。高频声音波长短,更容易被头部阻挡,强度差明显。低频声音波长长,能绕过头部,强度差很小。所以高频声音的方位判断主要靠强度差。

耳廓的频谱变化

前面的时间差和强度差,只能解决水平面上的定位。但如果声音来自正前方或正后方,两只耳朵的时间差和强度差都很接近,怎么区分?

这时候耳廓起作用了。耳廓有复杂的凹凸结构,声波经过时会产生反射、衍射、共振。不同方向来的声音,经过耳廓后的频谱变化不同。

比如来自前上方的声音,某些频率会被耳廓增强,某些会被削弱。来自后方的声音,增强和削弱的频率段又不一样。大脑通过识别这些频谱特征,判断声音是来自前方还是后方、上方还是下方。

这个过程非常依赖个体差异。每个人的耳廓形状都不同,频谱变化也就不同。所以通用的HRTF对有些人效果好,对有些人效果差。


三. HRTF是什么

HRTF就是把上面这些物理过程量化成数学函数。

它描述的是:一个声音从空间中某个特定位置(比如左前方45度、仰角30度)传到人的耳朵时,频谱会发生什么变化。

具体来说,HRTF是一对滤波器。一个用于左耳,一个用于右耳。把原始声音信号通过这对滤波器处理,输出的左右声道信号就包含了方位信息。

数学表达

在频域,HRTF可以表示为:

H(f, θ, φ) = |H(f, θ, φ)| · ejΦ(f, θ, φ)

其中:

  • f 是频率
  • θ 是水平方位角
  • φ 是仰角
  • |H| 是幅度响应(频谱变化)
  • Φ 是相位响应(时间延迟)

左右耳各有一个这样的函数。它们的差异反映了时间差、强度差和频谱差。

时域表达

在时域,HRTF是一对脉冲响应(HRIR,Head-Related Impulse Response)。把这对脉冲响应和原始音频做卷积,就得到了经过头部和耳廓”滤波”后的双耳信号。

实际应用中,通常使用HRIR,因为时域卷积更直观,也更容易实现。


四. 如何测量HRTF

HRTF需要在实验室里测量。

测量环境

测量必须在消声室进行。消声室的墙壁、地面、天花板都覆盖吸声材料,把反射降到最低。这样测到的HRTF才是纯粹的头部和耳廓效应,不包含房间反射。

假人头

测量HRTF通常使用假人头,比如最常用的KEMAR(Knowles Electronics Manikin for Acoustic Research)。

KEMAR是一个按真人头部和躯干1:1制作的模型,耳道位置装有微型麦克风。它的头部形状、耳廓结构都接近人类平均值。

有些实验室也会用真人做测量,但过程很耗时。受试者要坐在消声室中间保持静止,头部不能动,连续测几个小时。

测量流程

  1. 把假人头或受试者放在消声室中心
  2. 在周围布置多个扬声器,或者用一个扬声器旋转到不同位置
  3. 从某个位置播放测试信号(通常是扫频信号或脉冲)
  4. 记录左右耳麦克风接收到的信号
  5. 通过信号处理计算出该位置的HRTF
  6. 重复步骤3-5,覆盖整个球面(前后左右上下各个方向)

典型的HRTF测量会在水平面和垂直面上取若干个采样点。比如水平方向每隔5度一个点,垂直方向每隔10度一个点,总共需要测几百个甚至上千个位置。

已有的HRTF数据库

因为测量成本高,学术界和工业界建立了一些公开的HRTF数据库供研究和应用使用:

  • MIT KEMAR:麻省理工学院测量的KEMAR假人头HRTF,最早也是最常用的数据库之一
  • CIPIC:加州大学戴维斯分校的CIPIC实验室测量了45个受试者的HRTF
  • SADIE:约克大学的数据库,包含多个假人头和真人的测量数据
  • ARI:奥地利声学研究所的高分辨率HRTF数据库

这些数据库通常是开源的,研究人员和开发者可以免费下载使用。


五. 如何用HRTF制作3D音效

有了HRTF数据,就可以合成双耳音频了。

基本流程

假设你要制作一个声音从左前方45度传来的效果:

  1. 从HRTF数据库中找到”左前方45度”对应的左右耳脉冲响应
  2. 把原始音频信号分别和左耳、右耳的脉冲响应做卷积
  3. 得到两路输出,分别送到耳机的左右声道

用户戴上耳机,听到的声音就会有”来自左前方45度”的方位感。

动态位置

如果声源在移动,或者听者在转头,需要实时更新HRTF。

比如VR游戏中,玩家转头向左,原本在正前方的声源现在相对位置变成了右前方。系统要检测到头部转动,重新选择对应的HRTF,用新的脉冲响应处理音频。

这个切换要足够快,延迟不能超过几十毫秒,否则方位感会滞后,破坏沉浸感。

插值

HRTF数据库通常只覆盖离散的采样点。如果声源位置刚好在两个采样点之间,需要做插值。

最简单的是线性插值,把相邻采样点的HRTF按距离加权混合。更复杂的方法会考虑球面几何和相位连续性。


六. 通用HRTF的局限

大多数3D音效应用使用的是通用HRTF,比如MIT KEMAR的数据。这对很多人有效,但不是对所有人都完美。

个体差异

每个人的头部大小、耳廓形状都不一样。有人耳廓大,有人耳廓小;有人耳轮明显,有人耳轮平。这些差异会导致HRTF不同。

用通用HRTF可能会出现:

  • 前后混淆:把前方的声音听成后方,或者反过来
  • 方位偏移:实际在左前方的声音,听起来像在正左边
  • 距离感不准:近处的声音听起来很远

前后判断问题

前后混淆最常见。这是因为前后方向主要靠耳廓的频谱线索,而耳廓形状个体差异最大。

有些人戴耳机听3D音频时,能准确判断左右和上下,但前后总是搞混。这通常不是技术问题,而是HRTF不匹配。


七. 个性化HRTF

理想情况下,每个人都应该用自己的HRTF。但测量成本太高,不适合大规模应用。

测量方法

个性化HRTF的传统测量方法和前面说的一样:在消声室里,用麦克风和扬声器阵列测几个小时。

这种方法精度高,但需要专业设备和场地,普通用户做不了。

基于照片的估算

近年来,有些研究尝试用照片估算HRTF。

用户用手机拍几张耳朵的照片,算法分析耳廓的几何特征,然后从数据库中找最接近的HRTF,或者用机器学习生成定制的HRTF。

这种方法精度不如实测,但成本低,用户体验好。部分高端耳机和VR设备开始提供这种功能。

自适应校准

另一种方法是让用户做听力测试。

播放来自不同方向的声音,让用户指出听到的方位。系统根据用户的反馈,调整HRTF参数,直到用户能准确判断方位。

这个过程需要几分钟,但不需要额外硬件,可以在手机或电脑上完成。


八. HRTF在不同应用中的使用

VR和AR

VR头显通常内置头部追踪,可以实时检测头部转动。结合HRTF,能实现非常逼真的空间音频。当你在VR中转头,声音的方位会跟着变化。如果没有HRTF,即使画面是3D的,声音还是平的,沉浸感会大打折扣。

游戏

FPS游戏中,能通过脚步声判断敌人位置是很重要的战术信息。HRTF让玩家能准确定位声源,不只是左右,还有前后和上下。有些游戏(如《CS:GO》《绝地求生》)专门优化了HRTF音效。玩家可以在设置里开启或关闭。

音乐和影视

音乐制作人可以用HRTF把立体声混音转成双耳音频。听众戴上耳机,能体验到类似现场演出的空间感。电影也可以用HRTF制作沉浸式音效。Netflix、Apple TV+等流媒体平台已经开始提供支持空间音频的内容。

实时通信

在元宇宙、VR社交、虚拟会议中,HRTF让多人语音通话更自然。每个人的声音从不同方位传来,你能很清楚地分辨谁在说话。这比传统会议中所有人的声音混在一起要清晰得多。

声网的空间音频SDK在底层使用HRTF技术,基于头部相关传输函数、心理感知声学、声源指向模拟等算法自研了3D声场渲染引擎。开发者可以快速集成到自己的应用中,实现虚拟空间的沉浸式音频体验。


九. 实时HRTF处理的挑战

在实时应用中使用HRTF,计算性能是个挑战。

卷积计算量

每一路音频都要和HRTF做卷积。HRIR通常有几百个采样点,做时域卷积计算量不小。如果是10人会议,每个人都要处理其他9个人的音频,就是9次卷积。如果用户设备性能不够,可能会卡顿或延迟。

优化方法

频域卷积比时域卷积快。把音频和HRIR都转到频域,做乘法,再转回时域。这样可以减少计算量,但会增加延迟(需要积累一定长度的音频才能做FFT)。

另一种方法是简化HRTF。不使用完整的几百点脉冲响应,而是用参数化的模型,只保留关键特征。精度会下降,但计算量小很多。

移动设备还可以利用硬件加速。部分芯片有专门的DSP单元,可以高效处理卷积运算。


十. 未来发展方向

HRTF技术还在不断进步。

AI生成HRTF

机器学习可以用来预测个性化HRTF。训练一个神经网络,输入是耳朵照片或头部扫描,输出是HRTF参数。

这种方法不需要在消声室里测量,用户在家就能完成。虽然精度可能不如实测,但对大多数应用已经够用了。

动态HRTF

目前的HRTF假设头部是刚性的,不考虑肌肉和软组织的运动。但真人在说话、咀嚼、张嘴时,头部形状会微妙变化。

未来可能会有动态HRTF,根据面部动作实时调整。这在VR社交中会很有用,因为你的虚拟化身也会有表情和动作。

更高分辨率数据

现有的HRTF数据库空间分辨率有限。如果声源在两个采样点之间,需要插值,可能不够精确。

随着测量技术进步,未来的HRTF数据库可能会有更高的角度分辨率,插值误差更小。


十一. 总结

HRTF通过量化声音经过头部和耳廓的物理变化,让普通耳机也能呈现3D音效。它依赖双耳时间差、强度差和耳廓的频谱变化这些线索。

HRTF需要在消声室中测量,通常使用假人头或真人。已有的公开数据库为开发者提供了便利,但通用HRTF对个体适配度不同,个性化HRTF是未来发展方向。

实时HRTF处理面临计算性能挑战,需要通过频域卷积、参数化模型、硬件加速等方法优化。

在VR、游戏、音乐、实时通信等领域,HRTF已经成为3D音效的基础技术。随着AI、动态HRTF、高分辨率数据的发展,空间音频体验会越来越逼真。

在声网,连接无限可能

想进一步了解「对话式 AI 与 实时互动」?欢迎注册,开启探索之旅。

本博客为技术交流与平台行业信息分享平台,内容仅供交流参考,文章内容不代表本公司立场和观点,亦不构成任何出版或销售行为。