立体视频处理与通信
上QQ阅读APP看书,第一时间看更新

2.1 立体图像的基本原理

2.1.1 人眼立体感知生理学特征

研究立体渲染与重构的终极目标是实现真实、舒适的立体感知。因此了解人眼生理学特性对研究立体渲染与重构具有重要的意义。人眼产生立体感的因素有很多,主要来自于双眼的生理结构与后天习得的先验知识。这些机制协同工作使双眼获得的信息在大脑中产生立体感知。

图2.1是人眼右侧眼球水平断面模式图。眼球的主要成像系统由视网膜、玻璃体、晶状体、瞳孔和角膜等部分组成。

图2.1 右侧眼球水平断面模式图

眼球结构就像一个照相机系统。瞳孔是光圈,控制进入光信号的强度。晶状体和玻璃体如同照相机的透镜,将外界的光线汇聚到后面的视网膜上。视网膜上的视觉细胞相当于相机的感光元件,将光信号转变为电信号,通过视觉神经将图像信息传输到脑中的视觉处理区域,实现视觉认知。

两只眼睛接收的图像都映射在视网膜弯曲的表面,是两个平面图像的输入。大脑中的视觉系统通过比对这两个图像中的细微差别判断景物的远近。视差大的物体距离近,视差小的物体距离远。这是双眼产生立体感知的基本规律。

同时,随着年龄的增长,人脑通过对自然景物长期的观察学习,会积累先验知识,使得我们仅通过部分平面视觉线索就可估算景物的距离或深度。经过研究人员多年的实验总结,可能影响深度判断的平面线索有以下几种。

1. 透视关系

透视关系就是我们熟知的“近大远小”关系。同样的物体,距离近时其在视网膜上成像大,距离远时成像小。这导致景物随着距离远近的不同在我们眼中的大小也不同。由此大脑通过比对视野中景物的相对大小,可以预估各个景物的远近关系。在透视关系影响我们的深度判断时,我们的先验知识发挥着很重要的作用。如图2.2所示,小船在视野中比游轮大,但先验知识告诉我们实际的小船会比游艇小许多,由此我们得出小船比游艇更靠近我们的结论。

图2.2 透视关系

利用透视关系表现空间深度的技巧在绘画和摄影等平面艺术上早有应用。艺术家利用景物的透视关系提升平面图像的空间感和立体感。

2. 遮挡关系

近处的物体将遮挡住远处的物体,这是我们熟知的常识。这一点在对场景进行分层重构时需要特别注意。当景物的遮挡关系与其深度关系不符时,将会导致视觉错误。

3. 纹理疏密

同样的物体,当其距离我们较近时,其在视网膜上成像的面积大,感觉纹理更加稀疏;反之,当物体离我们远去时,随着其在视网膜上的成像面积越来越小,视觉上纹理分辨率更加稠密。某种程度上,纹理疏密关系可以理解为透视关系在景物表面细节的体现,如图2.3所示。

图2.3 纹理疏密对立体感的影响

4. 光影条件

在同样的光照条件下,景物上的光影强度可以反映其局部的深度细节。例如在高光情况下,突出的部分亮,陷入的部分会有阴影,如图2.4所示。

图2.4 光影关系对立体感的影响

除了平面视差线索外,运动视差则是与双眼立体结构无关的一类视差线索。当我们注视某个物体时,若视线随着物体移动,或我们自身移动,视野中的其他景物也会产生运动。若物体与观看者的相对移动垂直于视线方向,则在观察者的视野中,观察者与物体之间的景物,与相对运动方向相同,物体之后的景物则与相对运动方向相反。若观看者向物体方向移动,则物体后的景物相对视差将增大,而物体之前的景物相对视差将减小。

人的大脑视觉中枢通过综合以上总结的各类视觉深度线索实现立体视觉。这些因素在进行重构时都应被充分地考虑。当不同的视觉线索发生冲突时,就会产生不适。下一小节中,总结整理了现有立体显示终端下产生不适的现象和原因。

2.1.2 立体失真

所谓立体失真,就是立体影像在重构时产生了与真实立体视觉相抵触的情况,从而导致观看者无法从重构中获得正确的立体感知。这些失真有些是由于立体显示终端自身固有缺陷造成的,有些则可以通过改善渲染方法加以避免。

1. 适应性调节与汇聚

适应性调节(accommodation,有的文献翻译成定位)与汇聚(vergence)是一对双眼立体视觉机制。光线由角膜和晶状体汇聚进入人眼,在视网膜上聚焦成图像。晶状体具有一定的柔韧性,人眼通过晶状体旁边的环形睫状肌收缩改变晶状体的厚薄,改变其折射率,使被关注的景物聚焦在视网膜上。被聚焦的景物是清晰的,而焦距之外的景物则是模糊的。研究表明,晶状体能产生大约10个屈光度,它的自适应调焦功能,可以使距眼睛9m之内的物体清晰成像。这种聚焦机制被称为适应性调节。同时,当我们在注视某一个物体时,双眼的视轴会交于被注视的目标,这个机制被称作汇聚。

适应性调节是单眼独立完成的(闭上一只眼,另一只眼同样可以完成适应性调节)。而汇聚作用是双眼共同完成的。这是两个相互独立的,又协同工作的生理机制。在日常生活中,它们一致地服务于我们的立体感知系统。而对于现有大部分立体显示终端,这两个机制的协同工作却被打乱了。当我们在一个二维屏幕上同时对左右两只眼睛显示两幅具有视差的图像时,我们晶状体的聚焦始终锁定在二维屏幕的平面上,而双眼的汇聚点则可能汇聚在屏幕前或屏幕后的位置上。这就会使得视觉系统的汇聚点进入一个往返于屏幕前后的过程中,造成视觉疲劳甚至眩晕。

适应性调节与汇聚的不匹配被认为是引起立体影像视觉不适的最主要因素。产生这种问题的原因是基于视差原理的立体显示设备仅仅模拟了人眼的汇聚机制,而没有考虑到人眼的聚焦机制。解决方法是,在渲染时尽量使画面中的主要物体的深度保持在屏幕附近,或采用真三维立体显示设备。

2. 竖直视差

由于双眼是水平生长的,因此在自然条件下我们观察客观世界仅会接收到水平方向上的视差。当左右眼看到的图像具有竖直视差时,会无法将左右画面融合在一起。

竖直视差产生的原因通常是立体影像没有被正确地拍摄,导致左右画面扭曲或焦距不齐。解决方法是提高拍摄精度,或在渲染时增加左右图像校正校准机制,以减少竖直视差。

3. 梯形失真

梯形失真(keystone distortion)经常出现在采用聚焦相机设置(即左右相机以一定角度相对放置)所捕捉的立体图像中。在这种情况下,两台相机的成像传感器对准了略有不同的成像平面,从而造成左右相机摄制到的图像在相对方向上呈梯形状态,如图2.5所示,图中绿色为左眼图像,红色为右眼图像。

图2.5 梯形失真(参见书末彩插)

梯形失真可以理解为竖直视差的一种。由于在汇聚点平面以外的平面上产生了竖直视差,造成人眼合成的困难。解决梯形失真的方法有两种,第一是采用平行摄像机的拍摄方法,第二是在拍摄后对图像进行梯形校正。

4. 串扰

串扰(cross-talk)是指在观看立体影像时,左眼和右眼的图像无法完全分开,使得部分左眼的图像进入了右眼,部分右眼的图像进入了左眼,产生“鬼影”(ghosting)。产生串扰的主要原因是立体显示设备的滤波功能不够完善,使得左眼和右眼所接受到的图像不能被彼此完全屏蔽。改善方法是实现更高效的滤波。Konrad等人[202]曾提出一个立体图像中补偿串扰的算法,在渲染过程中针对显示系统对输出的图像信息进行补偿,以降低串扰的影响,但这种方法需要针对不同系统进行设计。

需要指出的是,串扰不是导致“鬼影”现象的唯一原因。各种致使双眼无法正常将左右图像融合成一幅图像的失真,都会导致这一现象。

5. 硬纸板效应和木偶剧场效应

所谓硬纸板效应(cardboard effect),是指在立体图像中物体和人不自然地扁平,好像他们都变成了从纸板上剪裁出来的一样。这种效应使得一个立体场景看起来好像被分割成了不同深度的离散层面。而木偶剧场效应(puppet-theater effect)则是场景深度不自然,好像所有物体都像一个木偶剧场中的景物一样。

这种现象的出现是因为场景的深度没有被真实地重构,景物的深度与景物的水平尺寸没有等比例的进行压缩,或被离散地压缩了。产生它的主要原因来自以下几个方面:(1)对立体图像的线性拉伸导致深度的非线性变化;(2)对视差的线性调整导致深度的非线性变化;(3)栅格化像素导致的视差梯度离散化。

硬纸板效应是基于视差原理的立体显示设备的另一个固有缺陷。解决它的方法是在对立体图像进行视差调整时,保持深度与水平方向的比例,同时改进平面显示载体,提升像素密度。

6. 剪切失真

剪切失真(shear distortion),是指当观看者改变了他的观看位置时,立体图像会随着观看者的移动而移动,进而显示出透视上的失真。具有正视差的物体的移动方向和观看者运动方向相反,而具有负视差的物体看起来和观看者的运动方向相同。

剪切失真也是视差式立体显示设备的固有缺陷。产生这种现象的原因,是由于成像平面是空间中的一个二维平面,当观看者在屏幕前移动时,屏幕上的像没有随之移动,从而导致成像位置随之移动,如图2.6所示。

图2.6 剪切失真

有人提出通过增加头部跟踪系统来减轻这一失真现象,也就是在渲染过程中,将观看者的观看位置考虑在内,使得在不同位置观看都能够呈现出一对正确的立体图像对,或者在不同观看位置上都能得到三维场景中的一个唯一正确的立体视图。但这么做的缺陷是显示终端仅能供单人使用,而不能同时被几个人同时观看。

7. 窗口效应

窗口效应(window effect)是指大部分的立体显示终端是存在于屏幕边界的,边界外的图像不可见,人们好像在透过一个窗口向内观看。当图像中的景物与屏幕边缘发生切割时,人们仅能对陷入的物体产生正确的立体感知,而对突出的物体无法正确地识别。这是由于我们的先验知识告诉我们景物的立体结构是连续的,而对于突出的物体,其在边缘处会出现非连续的跳变,由突出跳变为零,这不符合自然规律。同时,当我们正常观看一个窗口的左(右)边缘时,右(左)眼看到的信息应比左(右)眼多。而当这一条件相反时,左(右)眼多看到的图像无法从另一眼中找到匹配的图像,则会造成视觉错误。

解决窗口效应的方法,是在渲染重构时,避免让景物与屏幕边缘相接触,若接触,保证其为陷入的情况;若突出,则需对边缘进行处理,裁剪使各视角图像对应。

8. 视差梯度

视差梯度的概念是指观看者视野内的图像视差变化的剧烈程度。这个梯度的概念可分为时间域与空间域两个范畴。不论是在时间域或空间域的哪个尺度上,视差变化过于剧烈都会导致人眼不适。

这种现象产生的原因是由于我们的自适应调节与汇聚调节都需要一定的生理过程。过快或频繁地变换汇聚点或视觉焦距都会导致视觉疲劳或眩晕。因此视差梯度变化剧烈的立体图像不适于观看。

从空间域上来看,当我们注视某个景物时,由于汇聚作用,仅有处于注视目标附近深度的景物被正确地融合在了一起,未能融合在一起的景物由于自适应调节机制,被自动虚化了。而当我们通过立体显示终端观看立体图像时,双眼的焦距被锁定在显示平面上,景深外的景物往往以同样的清晰度显示出来。此时双眼会试图选取一个合适的汇聚点使前景和背景同时融合在一起,这将导致两眼的汇聚点在前景深度与背景深度之间频繁地变换,导致视觉晕眩。

从时间域上来看,当场景中的景物深度变化过快时,也会导致汇聚点的迅速切换。如一个迅速飞出屏幕的物体,会导致双眼来不及跟上它的速度,而导致眩晕。

为避免因视差梯度过大导致的视觉不适,可以在渲染过程中引入深度控制和深度滤波机制,使图像内的梯度变化尽量连续、平缓,并在时间域上对视差变化进行时域滤波。