数字多媒体广播
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.5 MUSICAM(MPEG-1 Layer2)音频编码方法

2.5.1 概述

MUSICAM编码方法与ISO11172-3 Layer2是一致的,即国际标准MPEG-1的声音编码的第2层。MUSICAM(Masking——Pattern adapted Universal Subband Integrated Coding And Multiplexing——掩蔽型自适应通用子带综合编码与复用)编码方法属于子频带编码。

它是将宽带的声音信号的频谱分割为宽度均为750Hz的32个子频带,利用人耳听觉的心理声学效应和音频信号的统计的内在联系,确定并清除语言和音乐信号中的冗余和不相关部分,来实现有效的数据压缩。

2.5.2 MUSICAM编码器

如图2-5-1所示是MUSICAM编码器的原理方框图。

图2-5-1 MUSICAM编码器原理方框图

编码器的输入信号是每声道为768kb/s的数字化声音信号(PCM)信号,其输出信号是经过压缩编码的数字音频信号,称为MUSICAM信号,其总数据率视不同需要可处于32~384kb/s的范围,可提供14种不同数据率。

需要指出的是,不论工作在何种声音模式(单声道、双声道、立体声、联合立体声),总比特率都是指音频帧中占绝对多数的声音取样值本身以及后面将要提到的一些辅助信息和附加信息的总和。

下面简要说明编码器主要功能块的作用和工作原理。

(1)滤波器组

滤波器组的配置对声音信号的编码质量有决定性影响。

MUSICAM编码器中使用的是多相滤波器组,分析(编码器)与综合(解码器)滤波器组的总时延为11.6ms(在48kHz取样频率时)。多相滤波器组具有特殊的相位关系和相等的带宽;另一个优点在于,在同时进行混叠补偿的情况下,信号能完好地重建。

MUSICAM编码器的滤波器组的配置对声音信号的编码质量有决定性影响。它的作用是将宽带的时域中的PCM信号变为32个子频带,每个子频带为750Hz窄带频域中的数字信号。

人耳对音频信号的低频率范围的频率分辨能力要高于高频率范围。因此,对子频带的分割理想情况是各子频带的宽度不一致,随着频率的升高,子频带的带宽也增加。但是,这样做就会增加信号处理的复杂程度。因此,在子频带编码方法中,通常各子频带宽度是相等的。

此外,子频带数量越多,在保持相同的声音质量下,编码后的数据率越低;当传输中出现比特差错时,影响越小,仅限制在很窄的子频带内,干扰作用大大减弱。

每子带宽为750Hz,在由时域变为频域时,每个子带取样频率为1.5kHz,因此在24ms的时间(相当于1个音频帧长)内每子带有1500×24×10-3=36个样值,32个子带每24ms共有36×32=1152个样值。在48kHz取样频率下,每24ms的PCM样值总数也是1152个。

在子频带编码方法中,滤波器组的设计特别重要,要求分析滤波器组输出端的总的取样频率等于输出信号的取样频率。如果设计成均匀的滤波器组,它有M个独立通道(M=32),各自的带宽相等(750Hz),于是各通道的信号必须用M抽选。满足该条件的系统称为临界取样。

(2)快速傅里叶变换(FFT)

FFT是离散傅里叶变换的快速算法。为了准确地模拟在低频率范围内听觉分析所需的频谱准确度,输入的PCM信号同时还送入快速傅里叶变换器。这样,既可以通过多相滤波器组使信号具有高的时间分辨率,又可以使信号通过FFT具有高的频率分辨率。足够高的频率分辨率可以实现尽可能低的数据率,而足够高的时间分辨率可以确保在短暂冲击声音信号情况下,编码的声音信号也有足够高的质量。

由于在滤波器组信号处理需要一定的时延,因此,为了进行时延的均衡,在FFT之前,应设置一个时延单元,延时时间为256个样值,在48kHz取样频率时相当于5.3ms。

FFT的输出值送入心理声学模型进一步处理。

(3)心理声学模型

心理声学模型是模拟人耳听觉掩蔽特性的一个数学模型。相应于1152个输入样值的每一帧(24ms长)都要确定比特分配,32个子频带的比特分配均以各子频带的信号掩蔽比(SMR)为基础进行计算。因此,对于每个子频带来说,确定用dB表示的最大信号声级与最小掩蔽阈是必要的。

心理声学模型利用FFT的输出值,进行信号掩蔽比的计算。信号掩蔽比(SMR)形成比特分配运算的相关输入量。

编码器中的每个“块”包含12个连续的样值,在48kHz的取样频率下,每子带每块相当于8ms。

(4)比例因子的确定和编码

在量化前,滤波器组的输出值应被归一化。比例因子是一个无量纲的系数,一组数值在量化前是用比例因子标定的,通过同时传送相应的比例因子,在解码器就可以正确恢复出每个样值相应的幅度。每个子频带中12个彼此相继的取样值被归并成一个块,这是鉴于人类听觉的时间掩蔽特性确定的,在取样频率为48kHz时相当于8ms。这样的块长可得到比例因子低的传输率和整个块中存在的量化噪声的不可听性之间的最佳折中。每个子带比例因子的计算是在12个子带样值的块上进行的,在每个块上确定出12个样值中的最大的绝对值。

每12个样值的最大值是不一样大的,把它们分为63个等级,级差(或称分辨率)为2dB,如表2-5-1所示是部分比例因子。63个比例因子,用6比特的字长来编码,当比例因子标记为0时,比例因子编码数据为“000000”,标记为62时,比例因子编码数据为“111110”。

比例因子的总的动态范围(相应于允许的节目的动态范围)约为120dB。

只有被分配到某一子频带的比特数不为零时,该子带的比例因子才被传送。需要指出的是,在音频帧中的比特流中传送的比例因子(简称SCF)是比例因子的6比特编码数据,而不是表2-5-1中列出的比例因子的大小。根据编码数据,解码器就会知道相应的比例因子数值的大小,从而恢复出相应的幅度。

表2-5-1 Layer2部分比例因子

(5)比例因子选择信息(SCFSI)及其编码

一个Layer2音频帧(24ms)相应于每子带36个子带样值,因此每个子带每帧有3个比例因子,原则上必须传送3个比例因子,但为了降低用于传送比例因子的数据率,应用了一种附加的编码手段。

比例因子的统计试验表明,不仅每一时间块的相邻子带比例因子有很大的依赖关系,而且在同一子带中时间上彼此相继的块的比例因子也有很大的依赖关系。

第一种依赖关系表明了音频信号的频谱包络曲线的特征,在较高频率时频谱能量分布是典型下降,比例因子从低频子频带到高频子频带出现连续降低。

第二种依赖关系,基于时间性的依赖关系,在一个子频带中彼此相继的比例因子差别很小,相继的比例因子可能出现大于2dB的差别的概率小于10%。

比例因子的编码手段,一方面是根据这种统计联系,另一方面是依赖于听觉的时间同听阈(时间掩蔽关系)。三个相连续的比例因子是共同地被考虑,并被分配为典型的比例因子样板。根据当时的样板,确定传送三个、两个或一个比例因子。同时,还要传送一个相应的比例因子选择信息(scfsi)。在静态声音信号时多数情况下只传送一个比例因子,但在短的冲击信号时,多数情况下三个比例因子都要传送。采用这种编码方法,平均而言用于传送比例因子所需的数据率可以由22.5kb/s降低到7.5kb/s。

描述每子频带需要传送的比例因子的数量和位置的信息称为比例因子选择信息,简称SCFSI,是逐帧变化的,比例因子选择信息仅2比特,可编码为“00”、“01”、“10”和“11”,分别代表传送三个比例因子、仅传送第一个(对第一和第二个8ms有效)和第三个比例因子、仅传送第一个比例因子(对所有三个8ms都有效)、仅传送第一个和第二个比例因子(第二个对比例因子对第二和第三个8ms有效)。

(6)动态比特分配信息及其编码

将比特分配给每个子频带的基本原则是,使音频帧期间的总的噪声掩蔽比达到最小。提供使用的数据率,扣除用于传送比例因子、比例因子选择信息、动态比特分配(BAL),数据帧头与必要的差错检测和附加数据后,用作传送音频取样值。

为了同时满足比特率和掩蔽要求,比特分配器应考虑来自滤波器组的输出样值和来自心理声学模型的信号掩蔽比(SMR)。

所谓“动态比特分配”,就是根据每个新的同听阈的计算来变化子频带信号的分辨率(即量化的粗细),使音频数据以相应的比特分配进行量化,由于音频信号是不断变化的,因此得到一个动态比特率。

动态比特分配的试验表明,该信息只需每24ms传输一次,该值正好与讲话和音乐信号的停顿期相吻合。对于整个动态比特分配的传输来说,需要的比特率仅为3.4kb/s。

需要说明的是,比特分配是一个迭代过程,从初始状态(分配给声音取样值的比特数为零、比例因子的比特数为零,比例因子选择信息的比特数为零)开始,每次迭代包括下列步骤:确定所有子频带的掩蔽噪声比(MNR)的最小值;提高有最小MNR的子频带的量化精度;计算该子频带的MNR;根据所需的附加比特数不断修改子频带取样值比特数,剩余比特数adb用下形式表示:

式中各项代表的意义是:

cb:可用比特数;

bbal:比特分配所需的比特数;

bsel:比例因子选择信息比特数;

bscf:比例因子比特数;

bspl子频带样值比特数;

banc:附加数据业务所需的比特数。

只要adb不小于一次循环内bspl、bsel和bscf的任何可能的增加,迭代过程就一直重复进行下去。

(7)子带样值的量化与编码

在MUSICAM编码方法中,量化级数与子频带号有关。在低频子频带提供15个不同的量化等级,在中频子频带提供7个,在高频子频带仅提供3个不同的量化等级。这些可能的量化级包括3、5、7、9、15、31、63、…、65535。

现将子频带样值的量化和编码的具体步骤简述如下:

每子频带12个连续的样值每个都除以比例子因子进行归一化,得到用X表示的值,并通过以下步骤进行量化:

① 计算A· X+B

② 取N个最高有效位;

③ 反转最高有效位。

AB是量化系数,它与量化级相对应,如表2-5-2所示。N是每个码字的比特数量。

表2-5-2 量化系数

在编码时,反转最高有效位(即“0”变为“1”,“1”变为“0”)是为了避免在数据流的该位置出现全“1”码时与同步字相混淆,在解码时,最高有效位必须再反转回来。

(8)Layer2的帧结构

编码器中的帧形成器将比特分配、比例因子选择信息、比例因子和量化的子频带样值与帧头信息及一些用于差错检测的码字组合在一起,格式化为ISO11172-层Ⅱ的比特流,它进一步将比特流分为音频帧,在取样频率为48kHz时,每个音频帧相当1152个PCM音频样值,持续期为24ms。

如图2-5-2所示是编码的声音信号的帧结构。

图2-5-2 MPEG-1 Layer2音频帧结构

每一音频帧由帧头开始,它由同步字(12比特)和声音系统相关信息(20比特)组成。帧头后的一个循环冗余检验(CRC,16比特)用以保护帧头信息、比特分配和比例因子选择信息区域的部分信息。CRC之后是比特分配、比例因子选择信息和比例因子。再接着便是被解码器用来重建PCM声音信号的子频带样值,最后是长度可变的附加数据区域。

因为ISO/MPEG音频标准覆盖了不同应用的大的范围,各种应用所必要的所有全部参数必须在编码帧中自己携带。通过这种原则,即信号的所有分析在编码器中进行,而只对解码器传送控制信息,这样可以实现一种简单的解码器。

对于DAB系统应用来说,采用了必需的具有附加特定信息的ISO11172-3层Ⅱ格式。特定信息包括扩展节目相关数据(X-PAD)、声音比例因子差错校验(SCF-CRC)和固定节目相关数据(F-PAD)。

最后,为了使读者有一个系统概念,这里给出MUSICAM编码器处理信号的流程图,如图2-5-3所示。

图2-5-3 MUSICAM(Layer2)编码器处理信号流程图