
2.3 数字音频数据率压缩的理论基础
2.3.1 频谱掩蔽效应
声音信号的强弱用声压级(简称声级)表示,其定义是:

式中P表示声压,单位是牛顿/平方米(N/m2),P0为基准声压,为20μPa,即

在安静的环境下,人耳刚刚能感觉到的最小声音强度,称为静听阈(门限),是随频率变化的,如图2-3-1所示。人耳对频率为3~4kHz附近的声音信号最敏感,对太低和太高的频率的声音感觉都很迟钝。
当有一个强度为70dB,频率为1kHz的纯音出现时,静听阈曲线将变为同听阈曲线,如图2-3-1所示。0.5kHz以下和5kHz以上部分,由于与1kHz相距较远,听觉门限不受影响而保持不变,或者说在这些部分同听阈曲线与静听阈曲线重合;在0.5~5kHz之间,形成新的听阈曲线。处于同听阈以下的声音事件(不管是声音信号还是噪声),由于被70dB强的1kHz信号所掩蔽都听不到,当然也就不必编码和传送。通常我们称此时的1kHz纯音为掩蔽音,而处于同听阈曲线以下的声音事件称为被掩蔽音。
例如,要想同时能听到上述的1kHz信号和另一个2kHz的信号,那么由图2-3-1可以看出,2kHz的信号强度必须在40dB以上(刚刚超出同听门限)。

图2-3-1 频谱掩蔽特性(静听阈和同听阈)
如果有多个频率成分的复杂信号存在,那么频谱的总的同听阈与频率的关系,取决于各掩蔽音的强度、频率和它们之间的距离。因此同听阈是衡量尺度:在多大的声级下,具有相应频率的一个附加插入的测试声,或者一个具有相应中心频率的窄带噪声刚好听不到,即处于靠近可感觉门限。
如图2-3-2所示是在中心频率分别为250Hz、1kHz和4kHz,强度均为60dB的窄带噪声的共同作用下形成的同听阈曲线。由图2-3-2可以看出:各自的同听阈曲线形状不完全相同;同听阈的最大值距60dB的距离随着中心频率的提高而变大,即同听阈的最大声级减小。

图2-3-2 不同中心频率的窄带噪声形成的同听阈
如图2-3-3所示是中心频率相同(1kHz),在不同声音强度下的同听阈曲线。由图2-3-3可以看出:声级越强,掩蔽曲线就越高,占据的频率范围就越宽,掩蔽能力就越强。还可以看出,掩蔽曲线以1kHz为中心,并不对称,左侧上升陡峭,右侧下降平缓。

图2-3-3 中心频率为 1kHz的纯音、不同声级时的同听阈
在进行数据压缩时,凡是处于总的同听阈以下的声音信号部分,由于掩蔽效应都不能被人耳听到,都不需要编码和传送;而处于总的同听阈以上的信号部分,在编码时,可按照使量化噪声起码保持在同听阈以下的原则被量化。
以dB表示的信号强度与最小同听阈之差,称为信号掩蔽比(SMR);以dB表示的信号强度与量化噪声之差,称为信号噪声比(SNR);以dB表示的最小同听阈与量化噪声之差称为掩蔽噪声比(MNR)。三者的关系是:

在进行数据压缩时,根据信号掩蔽比确定必要的量化。因此,在准确的频谱分析的情况下,量化噪声可以良好地与人耳听觉的同听阈相适配。提供的分别量化的子频带越多,SMR越小,允许的量化越粗,压缩效果越好。如图2-3-4 示出了在一个短时间段之内,典型声音信号的频谱及其同听阈及以编码(压缩)为条件的量化噪声。

图2-3-4 一个典型元音的幅度谱、同听阈和各子带中的量化噪声
一个子带中的最小同听阈是衡量刚好感觉不到量化噪声的尺度,由各子频带的同听阈最小值确定各子频带取样值的必要的量化。
与人耳的听觉特性最佳适配的源编码器,应该含有一个与听觉等效的频率分析,具有尽可能准确的同听阈仿真,以便可使量化噪声准确地与信号的变化过程相适配。
如图2-3-5所示是在三个掩蔽音的共同作用下,每个子频带允许的最大量化噪声。允许的量化噪声也间接地确定了要求的信号数据率,即数据率取决于掩蔽的程度,是随时间变化的(波动的)。

图2-3-5 各子带允许的最大量化噪声
为了可以进行信号处理,起码的条件是这样来确定量化,即让掩蔽阈与量化噪声之间保留一定的距离。为此,在一个迭代过程中,掩蔽阈和量化噪声之间的距离这样加大,直到信道提供的最大数据率尽量利用完为止。因此,提供使用的数据率越大,信号后期加工处理的可能性也越大。
2.3.2 时间掩蔽效应
在时域中,在听到强信号之前的短暂时间内,业已存在的弱音可以被掩蔽而听不到,这种现象称为前掩蔽;强音和弱音同时存在时,弱音被强音掩蔽,称为同期掩蔽;当强音消失后,经过较长的持续时间,才能重新听到弱音信号,这种现象称为后掩蔽。
图2-3-6示出典型的时间掩蔽过程,在前掩蔽期间,具有典型的听阈上升的趋势,且持续时间较短;在后掩蔽期间,具有同听阈下降的趋势,且持续时间较长。

图2-3-6 时间掩蔽特性
在编码时,将时间上彼此相继的一些取样值归并成块,以降低码率,就是基于人耳的时间掩蔽特性而采取的策略。
2.3.3 子频带编码
在子频带编码时,使用多相滤波器组使宽带的PCM声音信号被分割为许多子频带,相当于信号由时域变为频域,对各子频带的取样值分别进行数据率降低的编码。这种数据率降低对于各子频带来说是分别受控的,并且可以是固定的或随时间变化的(动态比特分配)。量化的降低取决于在确定的时间间隔内计算出的同听阈。解码器通过数据扩展和相反的滤波器组,由频域变到时域,重建宽带的PCM声音信号。如图2-3-7所示是子频带编、解码系统示意图。

图2-3-7 子频带编、解码系统
利用等带宽的许多带通滤波器(BPF)把宽带信号分割为许多子频带,因此编码端这些带通滤波器又称分析滤波器组。然后,用奈奎斯特速率对各子带滤波器的输出取样,并对取样值进行通常的数字编码。然后,通过多路复用器,将各路并行信号变为串行数据流在信道中传输。在解码端,通过多路分配器将串行数据流变为并行,即分解出各子带的编码信号,通过各自的解码器进行解码,然后通过带通滤波器组(又称综合滤波器组)将各子频带信号同步相加,合成宽带的信号。
子频带编码的优点是:
(1)声音信号固有的频谱不平坦性,对不同子带合理分配比特数,使数据率更精确地与各子带的信源统计特性相匹配。
(2)调整不同子带的比特赋值,就能控制总的重建误差频谱的形状。
(3)各子频带的量化噪声都限制在本子带内,这样,就能避免能量较小的输入信号被其他频段的量化噪声所掩盖。
(4)比特差错的影响,在宽带系统中延伸至整个音频范围,而在子频带编码方法中被限制在窄的子带内,干扰作用大大减弱。
(5)子频带编码的时间分辨率较高。
子频带编码方法应用在MPEG1音频编码标准的第1层和第2层。
2.3.4 变换编码
在进行变换编码时,输入的时域信号的一个时间限定的环节,应用快速傅里叶变换(FFT)或离散余弦变换(DCT),首先被变换为频域的信号,所产生的频谱值和相位值经过心理声学计值处理之后,以最少的量化进行编码、传输,最后在解码器中扩展并被变换为时域信号。