2.3 数字音频数据率压缩的理论基础_数字多媒体广播-QQ阅读女频现言网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.3 数字音频数据率压缩的理论基础

2.3.1 频谱掩蔽效应

声音信号的强弱用声压级（简称声级）表示，其定义是：

式中P表示声压，单位是牛顿/平方米（N/m2），P0为基准声压，为20μPa，即

在安静的环境下，人耳刚刚能感觉到的最小声音强度，称为静听阈（门限），是随频率变化的，如图2-3-1所示。人耳对频率为3～4kHz附近的声音信号最敏感，对太低和太高的频率的声音感觉都很迟钝。

当有一个强度为70dB，频率为1kHz的纯音出现时，静听阈曲线将变为同听阈曲线，如图2-3-1所示。0.5kHz以下和5kHz以上部分，由于与1kHz相距较远，听觉门限不受影响而保持不变，或者说在这些部分同听阈曲线与静听阈曲线重合；在0.5～5kHz之间，形成新的听阈曲线。处于同听阈以下的声音事件（不管是声音信号还是噪声），由于被70dB强的1kHz信号所掩蔽都听不到，当然也就不必编码和传送。通常我们称此时的1kHz纯音为掩蔽音，而处于同听阈曲线以下的声音事件称为被掩蔽音。

例如，要想同时能听到上述的1kHz信号和另一个2kHz的信号，那么由图2-3-1可以看出，2kHz的信号强度必须在40dB以上（刚刚超出同听门限）。

图2-3-1 频谱掩蔽特性（静听阈和同听阈）

如果有多个频率成分的复杂信号存在，那么频谱的总的同听阈与频率的关系，取决于各掩蔽音的强度、频率和它们之间的距离。因此同听阈是衡量尺度：在多大的声级下，具有相应频率的一个附加插入的测试声，或者一个具有相应中心频率的窄带噪声刚好听不到，即处于靠近可感觉门限。

如图2-3-2所示是在中心频率分别为250Hz、1kHz和4kHz，强度均为60dB的窄带噪声的共同作用下形成的同听阈曲线。由图2-3-2可以看出：各自的同听阈曲线形状不完全相同；同听阈的最大值距60dB的距离随着中心频率的提高而变大，即同听阈的最大声级减小。

图2-3-2 不同中心频率的窄带噪声形成的同听阈

如图2-3-3所示是中心频率相同（1kHz），在不同声音强度下的同听阈曲线。由图2-3-3可以看出：声级越强，掩蔽曲线就越高，占据的频率范围就越宽，掩蔽能力就越强。还可以看出，掩蔽曲线以1kHz为中心，并不对称，左侧上升陡峭，右侧下降平缓。

图2-3-3 中心频率为 1kHz的纯音、不同声级时的同听阈

在进行数据压缩时，凡是处于总的同听阈以下的声音信号部分，由于掩蔽效应都不能被人耳听到，都不需要编码和传送；而处于总的同听阈以上的信号部分，在编码时，可按照使量化噪声起码保持在同听阈以下的原则被量化。

以dB表示的信号强度与最小同听阈之差，称为信号掩蔽比（SMR）；以dB表示的信号强度与量化噪声之差，称为信号噪声比（SNR）；以dB表示的最小同听阈与量化噪声之差称为掩蔽噪声比（MNR）。三者的关系是：

在进行数据压缩时，根据信号掩蔽比确定必要的量化。因此，在准确的频谱分析的情况下，量化噪声可以良好地与人耳听觉的同听阈相适配。提供的分别量化的子频带越多，SMR越小，允许的量化越粗，压缩效果越好。如图2-3-4 示出了在一个短时间段之内，典型声音信号的频谱及其同听阈及以编码（压缩）为条件的量化噪声。

图2-3-4 一个典型元音的幅度谱、同听阈和各子带中的量化噪声

一个子带中的最小同听阈是衡量刚好感觉不到量化噪声的尺度，由各子频带的同听阈最小值确定各子频带取样值的必要的量化。

与人耳的听觉特性最佳适配的源编码器，应该含有一个与听觉等效的频率分析，具有尽可能准确的同听阈仿真，以便可使量化噪声准确地与信号的变化过程相适配。

如图2-3-5所示是在三个掩蔽音的共同作用下，每个子频带允许的最大量化噪声。允许的量化噪声也间接地确定了要求的信号数据率，即数据率取决于掩蔽的程度，是随时间变化的（波动的）。

图2-3-5 各子带允许的最大量化噪声

为了可以进行信号处理，起码的条件是这样来确定量化，即让掩蔽阈与量化噪声之间保留一定的距离。为此，在一个迭代过程中，掩蔽阈和量化噪声之间的距离这样加大，直到信道提供的最大数据率尽量利用完为止。因此，提供使用的数据率越大，信号后期加工处理的可能性也越大。

2.3.2 时间掩蔽效应

在时域中，在听到强信号之前的短暂时间内，业已存在的弱音可以被掩蔽而听不到，这种现象称为前掩蔽；强音和弱音同时存在时，弱音被强音掩蔽，称为同期掩蔽；当强音消失后，经过较长的持续时间，才能重新听到弱音信号，这种现象称为后掩蔽。

图2-3-6示出典型的时间掩蔽过程，在前掩蔽期间，具有典型的听阈上升的趋势，且持续时间较短；在后掩蔽期间，具有同听阈下降的趋势，且持续时间较长。

图2-3-6 时间掩蔽特性

在编码时，将时间上彼此相继的一些取样值归并成块，以降低码率，就是基于人耳的时间掩蔽特性而采取的策略。

2.3.3 子频带编码

在子频带编码时，使用多相滤波器组使宽带的PCM声音信号被分割为许多子频带，相当于信号由时域变为频域，对各子频带的取样值分别进行数据率降低的编码。这种数据率降低对于各子频带来说是分别受控的，并且可以是固定的或随时间变化的（动态比特分配）。量化的降低取决于在确定的时间间隔内计算出的同听阈。解码器通过数据扩展和相反的滤波器组，由频域变到时域，重建宽带的PCM声音信号。如图2-3-7所示是子频带编、解码系统示意图。

图2-3-7 子频带编、解码系统

利用等带宽的许多带通滤波器（BPF）把宽带信号分割为许多子频带，因此编码端这些带通滤波器又称分析滤波器组。然后，用奈奎斯特速率对各子带滤波器的输出取样，并对取样值进行通常的数字编码。然后，通过多路复用器，将各路并行信号变为串行数据流在信道中传输。在解码端，通过多路分配器将串行数据流变为并行，即分解出各子带的编码信号，通过各自的解码器进行解码，然后通过带通滤波器组（又称综合滤波器组）将各子频带信号同步相加，合成宽带的信号。

子频带编码的优点是：

（1）声音信号固有的频谱不平坦性，对不同子带合理分配比特数，使数据率更精确地与各子带的信源统计特性相匹配。

（2）调整不同子带的比特赋值，就能控制总的重建误差频谱的形状。

（3）各子频带的量化噪声都限制在本子带内，这样，就能避免能量较小的输入信号被其他频段的量化噪声所掩盖。

（4）比特差错的影响，在宽带系统中延伸至整个音频范围，而在子频带编码方法中被限制在窄的子带内，干扰作用大大减弱。

（5）子频带编码的时间分辨率较高。

子频带编码方法应用在MPEG1音频编码标准的第1层和第2层。

2.3.4 变换编码

在进行变换编码时，输入的时域信号的一个时间限定的环节，应用快速傅里叶变换（FFT）或离散余弦变换（DCT），首先被变换为频域的信号，所产生的频谱值和相位值经过心理声学计值处理之后，以最少的量化进行编码、传输，最后在解码器中扩展并被变换为时域信号。