数字多媒体广播
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.11 数字视频信号的信源编码

2.11.1 数字视频信号压缩机理

数字视频信号压缩的机理,一是充分利用了图像信号中存在大量冗余度,二是充分利用人眼的视觉特性(生理光学与心理光学特性)。

(1)图像信号中存在大量冗余度

统计表明相邻像素间、相邻行间与相邻帧间,有很强的相关性。电视画面中大部分区域的信号变化缓慢(尤其背景部分)。

① 空间冗余

一幅图像中规则物体、规则背景有很强的相关性,如蓝天或草地的背景中,所有点的亮度、色度及饱和度基本相同,表达这样的图像有很大的冗余。

② 时间冗余

相邻两幅图像之间有较大的相关性(如火车飞奔,两幅之间背景基本不变,火车本身的信息也时间相关)。

③ 视觉冗余

人眼对图像的感知是非均匀和非线性的,分辨率是有限的,对图像的微量变化并不能都能感觉出来,允许引入觉察不到的噪声(人眼的灰度分辨率大约26-27,而图像量化采用28的灰度等级)。

(2)人眼的视觉特性

人眼视觉特性是图像压缩编码的重要依据,视觉特性主要表现在以下几个方面。

① 亮度辨别阈值

刚刚能够觉察到的亮度变化值。

② 视觉阈值

干扰或失真刚好可被觉察的门限值。

③ 空间分辨力

对一幅图像相邻像素的灰度与细节的分辨力,对不同内容的图像有不同的分辨力。对静止与活动图像有不同的分辨力,亮度不同,分辨力也不同。

④掩蔽效应

掩蔽效应是指人眼对图像中量化误差的敏感程度,与图像信号变化的剧烈程度有关。

(3)视频数据压缩编码的分类

根据解码或与压缩前的数据是否一样,可分为:无损压缩(不失真压缩)和有损压缩(失真压缩)。

根据压缩的机理不同分类,和分为基于信源统计特性的压缩编码;基于人眼视觉特性的压缩编码;基于图像景物特征的压缩编码。

基于信源统计特性的压缩编码:属于这一类的编码方法有预测编码、变换编码、矢量量化编码、子带-小波编码、神经网络编码等。

基于人眼视觉特性的压缩编码:属于这一类的编码方法有方向滤波的图像编码方法、图像轮廓-纹理编码方法。

基于图像景物特征的压缩编码:属于这一类的编码方法有分形编码法和模型编码法。

2.11.2 常用视频编码方法

(1)预测编码

减少数据在时间和空间上的相关性:任何一个像素可以由与它相邻的且被编码的像素预测估计,进行帧内预测编码(利用空间冗余)和帧间预测编码(利用时间冗余)。

预测编码是根据某一模型,利用过去的样值预测当前的样值,再将当前的样值的实际值与预测值相减得到一个误差值,只对该预测误差值进行编码。由于预测误差信号要比原始信号小得多,可用较少的电平等级量化,从而大大减小数据率。

(2)变换编码

变化编码的基本思想:将在几何空间描述的图像信号,变换到另外的向量空间(变换域)描述,再根据图像在变换域中系数的特点和人眼的视觉特性进行编码。

由于图像数据在空间上的相关性,变换到变换域后,能量往往集中在少数养值上,通过舍弃一些较小的系数,实现数据压缩。

变换编码一般采用正交变换,常用的图像正交变换有:离散傅里叶变换、最佳变换、离散余弦变换等。

(3)统计编码

利用信息论原理减少数据冗余。信源中所含的平均信息量“熵”是无失真压缩编码的理论极限。

霍夫曼编码方法(利用概率分布特性)就是利用信息熵的编码。霍夫曼编码根据符号发送概率的不同,分配不同码长的码字(变字长编码)。

(4)子带编码

利用带通滤波器组将信号频带分割为很多子频带,再对每一个子带进行独立的编码(数据压缩)。

(5)小波变换编码

小波变换编码是一种不受带宽约束的图像压缩方法。可以在指定的频带和时(空)域内对信号进行分析,在任意的时(空)域尺度内,以任意高的分辨率观察信号的细微特征。小波变换编码在MPEG-4静止图像压缩中得到应用。

2.11.3 视频压缩标准与应用

(1)JPEG标准

1986年发布,适用于静止图像的压缩以及电视图像序列的帧内压缩。

(2)H.261和H.263标准

1990年CCITT通过,主要应用在综合业务数字网ISDN上传输电视电话会议等低码率多媒体领域。

后来的H.263标准既适应低速也适应高速通信网;H.263的压缩方法与H.261基本相同,但视频格式不同。

(3)H.264

MPEG(Moving Picture Experts Group)和VCEG(Video Coding Experts Group)联合开发了比早期的MPEG及H.263 性能更好的视频压缩编码标准,称为AVC(Advanced Video Coding),也被称为ITU-T H.264 建议和MPEG4 的第10 部分(MPEG-4 ISO/IEC 14496-10)。该标准已于2003年3月被ITU-T通过并在国际上正式颁布。

(4)MPEG标准

① MPEG-1 ISO/IEC 11 1 72-2

数据率为1.5Mb/s的图像信号的压缩,在VCD中应用。

② MPEG-2 ISO/IEC 13818-2

各种数据率的图像信号的压缩,主要应用于DVD,SDTV和HDTV中。

③ MPEG4 ISO/IEC 14496-2

1999年1月发布,主要特征:采用基于对象编码,可以对不同来源的对象进行合成,对象可以是自然的,也可以是合成的。

主要应用:目标是多媒体的多领域应用,支持各种数据率(5kb/s~4Mb/s)格式和分辨率。时实通信(视频会议、可视电话等)、移动多媒体(PDA等)、交互媒体存储(DVD等)、交互视频游戏、节目制作及广播业务。

(5)WMV9

WMV:全称Windows Media Video,是微软在ASF基础上推出的一种媒体格式,具有体积小,可进行高速网络传输等特点,目前,在网上比较流行。

Windows Media Audio & Video 9系列编解码器,它具有特别设计的功能,可在拨号速率下提供出色的音质和画质,在使用宽带连接时为用户提供类似家庭影院的体验,并可优化下载后播放的内容。

微软宣称,WMV9是一种经过验证的编解码器,能够在压缩效率与计算效率之间达到比H.264更好的平衡。

WMV9与H.264一样,都是高性能的视频编解码标准,区别在于前者是软件霸主微软的独门绝技,而后者是真正的国际标准。实验数据表明,同样是2小时的HDTV节目,如果使用MPEG-2最多只能压缩至30GB,而使用H.264、WMV9这样的高压缩率编码器,在画质丝毫不降的前提下都可压缩到15GB以下。

WMV9是微软开发的视频压缩技术系列中的最新版本,尽管WMV9是微软的独有标准,但因其在操作系统中大力支持WMV系列版本,从而在桌面系统得以迅速普及。

在性能上,WMV9的数据压缩率与H.264一样,两者的应用领域也极其相似,因此在新一代主流视频编码标准霸主地位的争夺之中,双方展开了针锋相对的斗争,而斗争的焦点集中在下一代光盘规格“HD DVD”和数字微波广播电视等领域。

(6)AVS

国家信息产业部科学技术司于2002年6月批准成立数字音视频编解码技术标准工作组。工作组的任务是:面向我国的信息产业需求,联合国内企业和科研机构,制(修)定数字音视频的压缩、解压缩、处理和表示等共性技术标准,为数字音视频设备与系统提供高效经济的编解码技术。

服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通信、互联网宽带流媒体等重大信息产业应用。

AVS标准作为数字音视频产业的共性基础标准,广泛应用于高清晰度和标准清晰度数字电视广播、激光视盘机、移动多媒体通信、视频会议与视频监控、宽带网络流媒体、数字电影等产业群。

与其他类似标准相比,AVS有两大优势:基于自主技术和部分开放技术构建的开放标准,妥善解决专利许可问题;中国日渐强大的产业化实力和市场提供了良好土壤。

2.11.4 H.264编码原理与性能

由于H.264编码方法在多媒体广播传送视频信号中得到广泛应用,在这一节中专题介绍这种方法的编码原理及其性能。

(1)H.264编码器的基本原理

H.264采用的编码结构实际上和MPEG-2相似。在H.264编码器中主要应用了下列技术:

非常灵活的动态补偿体系;多层参考图像;循环滤波;去除块效应;进行帧内预测。

如图2-11-1所示是H.264/AVC基本编码器原理方框图。编码算法大体可分为两个层次:一是完成对视频内容的有效描述,进行高效编码的视频编码层(VCL),二是完成在不同的网络上进行视频数据打包传输的网络适配层(NAL,包括打包和相应的信令)。此外,在VCL与NAL之间定义了建立在分组基础上的接口。H.264/AVC的分层结构如图2-11-2所示。

图2-11-1 H.264/AVC基本编码器原理方框图

图2-11-2 H.264/AVC的分层结构

预测编码是利用图像信号在时间和空间上的相关性,减少冗余度而达到减低数据率的目的。

帧内预测

帧内预测是根据前面已经传送的同一帧内的像素预测当前像素,利用图像信号的空间相关性减低冗余度。H.264采用了新的帧内预测模式,通过已编码重建的当前像素块的左边与上边的像素进行预测,只对实际值与预测值之间的差值编码。在H.264标准中,亮度块的预测模式有9种4×4块和4种16×16块,色度有8×8块4种模式(与亮度的4种16×16块的模式相同)。

帧间预测

帧间预测是根据图像相邻帧之间在时间上的相关性来实现数据率的减低。将每个亮度块划分为形状不等的区域,作为运动描述区域。通常有16×16、16×8、8×16和8×8(该方式可以继续划分为8×8、8×4、4×8和4×4共四个子区域)四种不同划分方法。每个区域包含各自的运动矢量(表示运动方向与位移量),通过编码传送运动矢量与区域选取信息。区域选取的大(小),表示运动矢量和区域选取信息的数据量小(大),运动补偿后的残差大(小)。

变换与量化

在H.264中,运动估计值与帧内预测的残差结果从时域变换到频域,使用了类似于4×4离散余弦变换的整数变换,代替了MPEG-2和MPEG-2采用的浮点数变换,具有计算速度快、效果好等优点。同时,根据残差系数的不同,H.264采用了三种不同的变换矩阵。

在H.264中,量化系数借助无扩展的分级量化进行量化。同时,H.264还提供了自适应块变换,能够根据分块的尺寸调整变换和量化的参数。

抗块效应滤波

在H.264中,基于内容的抗块效应滤波的作用,是为了提供更好的参考图像,提高解码图像的主观与客观质量。

熵编码

经过上述的变化和量化之后,得到的每一系数需要一对应的码字表示,并传送到解码端。熵编码是可变字长编码,它根据符号发送概率的不同分配有不同码长的码字。出现概率大的符号,配以短码;否则,配以长码。

在H.264中,使用了两种熵编码方法。一种是基于上下文的自适应变字长编码,另一种是普通的变字长编码。普通的变字长编码的缺点是没有考虑由符号相关性决定的条件概率,影响中高码率时的压缩效果。

(2)H.264解码器的基本原理

如图2-11-3所示是H.264解码器方框图。解码处理的两条路径包括对预测视频块的解码以及对编码残差块的解码,根据这两种解码结果来形成重构块。解码处理步骤包括:熵解码、运动补偿预测、反转扫描、反量化与反变换等。

图2-11-3 H.264解码器方框图

(3)H.264性能

H.264在显著低的数据率下,能提供明显高的图像质量。H.264 属于MPEG4 的第10部分,是高效的技术。相对于前一代的编码器它可以节约带宽和大的存储器的费用。H.264只用1/3或1/2 的数据率就有与MPEG2 相同的质量,在相同的的数据率下,分辨率为MPEG4第2部分的4倍。

H.264为最不同的应用领域在所有时间实现最好的压缩效率,如TV发射、DVD、视频会议,视频点播,流和多媒体信息等。在数字电视广播、视频实时通信、网络视频流媒体传递以及多媒体短信等方面发挥重大作用。

由于它的苛求的设计,在很多领域产生一等的质量-从3G到HD等。不管何种需要,H.264选用了多种编码方式和多种预测方式,以便自适应的选用压缩效果最佳的编码方法。H.264都可以确保在特别低的数据率下有特别不寻常的能力。

如表2-11-1所示是不同应用、分解率和图像速率、数据率之间的关系(fps为每秒帧数)

H.264提供了一系列误码恢复和校正措施,提高了网络的亲和性。与H.263和MPEG-2相比,峰值信噪比提高了3dB,或者码率节省了一半。

H.264与以前的国际标准如H.263和MPEG-4相比,最大的优势体现在以下四个方面:

① 将每个视频帧分离成由像素组成的块,因此视频帧的编码处理的过程可以达到块的级别。

② 采用空间冗余的方法,对视频帧的一些原始块进行空间预测、转换、优化和熵编码(可变长编码)。

③ 对连续帧的不同块采用临时存放的方法,这样,只需对连续帧中有改变的部分进行编码。该算法采用运动预测和运动补偿来完成。对某些特定的块,在一个或多个已经进行了编码的帧执行搜索来决定块的运动向量,并由此在后面的编码和解码中预测主块。

④ 采用剩余空间冗余技术,对视频帧里的残留块进行编码。例如,对于源块和相应预测块的不同,再次采用转换、优化和熵编码。