
2.8 先进音频编码(AAC)
2.8.1 系统概述
(1)编码器结构
如图2-8-1所示是AAC编码器方框图。

图2-8-1 AAC编码器方框图
为了提供应用的灵活性,允许在质量、存储器和处理能力需求之间进行折中,AAC系统提供了三层框架。
① 主框架
在主框架中,AAC系统在所给定的数据率范围内,都能提供最好的质量。该框架对存储器和处理能力的要求较高。按主框架构成的AAC解码器向下兼容,可以对用低复杂度框架编码器编码的数据流解码。以主框架工作的编码器包括滤波器组、预测、量化与编码、无噪声编码、比特流复合、时域噪声整形(TNS)、M/S(中间/旁边)立体声编码和强度立体声编码等功能模块。
② 低复杂度(LC)框架
这一框架的结构比较简单,它不包含预测和预处理模块,TNS的阶数也有限。
③ 可分级取样频率(SSR)框架
在该层框架中,增加了增益控制模块,它由多相正交滤波器(PQF)组、增益检测器和调节器组成。该层无预测模块,TNS的阶数和带宽都受限。该层较以上两层都简单,但能产生频率可分级信号。其含义是放弃高频段的PQF的信号而得到带宽较窄的输出信号,因此能适合于取样频率很低的数字音频信号的处理(最高取样频率可到96kHz,最低取样频率可到8kHz)。
(2)编码过程
通过滤波器组将时域里的PCM信号分解成亚取样频谱分量,变为频域信号。在48kHz取样频率时,频率分辨率为23Hz,时间分辨率为2.6ms,利用心理声学模型Ⅱ计算各子带的现实的掩蔽阈,根据频谱声级和掩蔽阈而得到信号掩蔽比(SMR),据此进行量化,由量化而产生的噪声应处于各子频带的同听阈以下。
在分析滤波器组之后,TNS对频谱进行同址滤波,用预测残差代替目标频谱系数。TNS技术可以对量化噪声的细微时域结构进行控制。
多声道信号可以采用强度立体声编码(联合立体声编码)。时域预测模块用来进一步降低静态信号的冗余。在低数据率时,多声道AAC编码器使用M/S立体声编码(类似MPEG-1 Layer3),用中间信息M和旁边信息S代替L和R。
2.8.2 滤波器组
滤波器组把输入端的PCM时域信号变为系统内部的频域信号,由于频域信号是每一时间块计算一次,是随时间块变化的,因此,滤波器组输出的信号是一种时间—频率表现形式。解码器中的滤波器组进行相反的变化。
在编码器中,使用改良离散余弦变换(MDCT),采用了时域混叠抵消(TDAC)技术。输入信号在进行频域变换之前,要先进行加窗处理,以降低边界效应影响频谱分析,提高频率选择性。通过将相邻块的取样值重叠5 0 %,再通过TDAC技术,在合成阶段便可抵消边界效应。
关于变换长度,在AAC中可以是2048个样值或256个样值。当信号的频谱结构复杂时,使用2048样值的长变换,以提高平稳信号的编码效率;对于瞬变信号而言,长变换编码效率不高,可使用短变换进行编码。短变换虽有较高的时间分辨率,然而频率分辨率较低,对平稳信号的编码效率不高。因此,为了兼顾不同的信号状态,要以信号为条件,动态改变变换长度,即进行变换块长切换,以获得不同的时—频分辨率。
2.8.3 预测
对于相对平稳的信号来说,采用预测可以进一步有效减少冗余,从而提高编码效率。预测只在长变换块使用。
在每声道中,都对由滤波器组进行频谱分析产生的频谱分量进行预测,每一频谱分量(直到16kHz)都有一个相应的预测器,每个预测器充分利用连续各帧的频谱分量之间的自相关。
在AAC中,每个频谱分量使用一个二阶后向自适应预测器,工作时需要前两帧的频谱分量值。预测器的参数逐帧地自适应于现实信号的统计特征。在预测器的作用下,量化器的输入量仅是预测误差,而不是原始的频谱分量,因而编码效率更高。
为了确保预测能带来编码增益,要对预测器进行控制,并为解码器传送预测器控制信息。
2.8.4 量化
在音频编码器中,数据率的真正降低是通过量化处理的。对频谱数据量化的准则和前文介绍过的其他方法相同。与量化相对应,对频谱进行编码的比特数既应低于给定的限制,又要满足心理声学特性的要求。
在AAC中,与MPEG-1 Layer3一样,也使用非线性量化,量化级数限制在8191(即213-1)之间,可以以1.5dB的步长进行调整。
为了得到最佳量化,使用了内环和外环两层迭代循环。内层迭代循环的目的是调节量化器步长,以便用给定的比特率对频谱数据编码。外层迭代循环是用来放大比例系数频段(或称比例因子带,简称SFBS),并尽力满足心理声学特性的要求。
把频谱划分为几个频谱组,每组共享一个比例因子(比例系数),这些频谱组就称为比例系数频段。比例系数表示增益数值,用以改变比例系数频段中所有的频谱幅度。
2.8.5 编码
在AAC中,量化后的频谱值、差分比例系数、方向信息等使用霍夫曼(Huffman)编码。为了对1个、2个或4个一组的频谱值进行编码,共使用了12个编码本。
2.8.6 时域噪声整形(TNS)
采用NTS技术,可以使编码器对量化噪声的细微时域结构进行控制,使之适应于掩蔽信号的结构,更充分利用掩蔽效应。此外,通过对瞬态信号片段的去相关,TNS方法可以减少编码器的峰值比特需求。TNS是通过在部分频谱数据上应用滤波过程来实现的。
此外,AAC中也应用“比特池”技术。