2.8 先进音频编码（AAC）_数字多媒体广播-QQ阅读女频短篇网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.8 先进音频编码（AAC）

2.8.1 系统概述

（1）编码器结构

如图2-8-1所示是AAC编码器方框图。

图2-8-1 AAC编码器方框图

为了提供应用的灵活性，允许在质量、存储器和处理能力需求之间进行折中，AAC系统提供了三层框架。

① 主框架

在主框架中，AAC系统在所给定的数据率范围内，都能提供最好的质量。该框架对存储器和处理能力的要求较高。按主框架构成的AAC解码器向下兼容，可以对用低复杂度框架编码器编码的数据流解码。以主框架工作的编码器包括滤波器组、预测、量化与编码、无噪声编码、比特流复合、时域噪声整形（TNS）、M/S（中间/旁边）立体声编码和强度立体声编码等功能模块。

② 低复杂度（LC）框架

这一框架的结构比较简单，它不包含预测和预处理模块，TNS的阶数也有限。

③ 可分级取样频率（SSR）框架

在该层框架中，增加了增益控制模块，它由多相正交滤波器（PQF）组、增益检测器和调节器组成。该层无预测模块，TNS的阶数和带宽都受限。该层较以上两层都简单，但能产生频率可分级信号。其含义是放弃高频段的PQF的信号而得到带宽较窄的输出信号，因此能适合于取样频率很低的数字音频信号的处理（最高取样频率可到96kHz，最低取样频率可到8kHz）。

（2）编码过程

通过滤波器组将时域里的PCM信号分解成亚取样频谱分量，变为频域信号。在48kHz取样频率时，频率分辨率为23Hz，时间分辨率为2.6ms，利用心理声学模型Ⅱ计算各子带的现实的掩蔽阈，根据频谱声级和掩蔽阈而得到信号掩蔽比（SMR），据此进行量化，由量化而产生的噪声应处于各子频带的同听阈以下。

在分析滤波器组之后，TNS对频谱进行同址滤波，用预测残差代替目标频谱系数。TNS技术可以对量化噪声的细微时域结构进行控制。

多声道信号可以采用强度立体声编码（联合立体声编码）。时域预测模块用来进一步降低静态信号的冗余。在低数据率时，多声道AAC编码器使用M/S立体声编码（类似MPEG-1 Layer3），用中间信息M和旁边信息S代替L和R。

2.8.2 滤波器组

滤波器组把输入端的PCM时域信号变为系统内部的频域信号，由于频域信号是每一时间块计算一次，是随时间块变化的，因此，滤波器组输出的信号是一种时间—频率表现形式。解码器中的滤波器组进行相反的变化。

在编码器中，使用改良离散余弦变换（MDCT），采用了时域混叠抵消（TDAC）技术。输入信号在进行频域变换之前，要先进行加窗处理，以降低边界效应影响频谱分析，提高频率选择性。通过将相邻块的取样值重叠5 0 %，再通过TDAC技术，在合成阶段便可抵消边界效应。

关于变换长度，在AAC中可以是2048个样值或256个样值。当信号的频谱结构复杂时，使用2048样值的长变换，以提高平稳信号的编码效率；对于瞬变信号而言，长变换编码效率不高，可使用短变换进行编码。短变换虽有较高的时间分辨率，然而频率分辨率较低，对平稳信号的编码效率不高。因此，为了兼顾不同的信号状态，要以信号为条件，动态改变变换长度，即进行变换块长切换，以获得不同的时—频分辨率。

2.8.3 预测

对于相对平稳的信号来说，采用预测可以进一步有效减少冗余，从而提高编码效率。预测只在长变换块使用。

在每声道中，都对由滤波器组进行频谱分析产生的频谱分量进行预测，每一频谱分量（直到16kHz）都有一个相应的预测器，每个预测器充分利用连续各帧的频谱分量之间的自相关。

在AAC中，每个频谱分量使用一个二阶后向自适应预测器，工作时需要前两帧的频谱分量值。预测器的参数逐帧地自适应于现实信号的统计特征。在预测器的作用下，量化器的输入量仅是预测误差，而不是原始的频谱分量，因而编码效率更高。

为了确保预测能带来编码增益，要对预测器进行控制，并为解码器传送预测器控制信息。

2.8.4 量化

在音频编码器中，数据率的真正降低是通过量化处理的。对频谱数据量化的准则和前文介绍过的其他方法相同。与量化相对应，对频谱进行编码的比特数既应低于给定的限制，又要满足心理声学特性的要求。

在AAC中，与MPEG-1 Layer3一样，也使用非线性量化，量化级数限制在8191（即213-1）之间，可以以1.5dB的步长进行调整。

为了得到最佳量化，使用了内环和外环两层迭代循环。内层迭代循环的目的是调节量化器步长，以便用给定的比特率对频谱数据编码。外层迭代循环是用来放大比例系数频段（或称比例因子带，简称SFBS），并尽力满足心理声学特性的要求。

把频谱划分为几个频谱组，每组共享一个比例因子（比例系数），这些频谱组就称为比例系数频段。比例系数表示增益数值，用以改变比例系数频段中所有的频谱幅度。

2.8.5 编码

在AAC中，量化后的频谱值、差分比例系数、方向信息等使用霍夫曼（Huffman）编码。为了对1个、2个或4个一组的频谱值进行编码，共使用了12个编码本。

2.8.6 时域噪声整形（TNS）

采用NTS技术，可以使编码器对量化噪声的细微时域结构进行控制，使之适应于掩蔽信号的结构，更充分利用掩蔽效应。此外，通过对瞬态信号片段的去相关，TNS方法可以减少编码器的峰值比特需求。TNS是通过在部分频谱数据上应用滤波过程来实现的。

此外，AAC中也应用“比特池”技术。