深度学习之PyTorch实战计算机视觉
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 计算机视觉

视觉对于生物而言有着非常特殊的意义,远古时代的生物是没有视觉器官的,视觉器官的出现归功于生物长达数万年的进化过程。生物在拥有了视觉器官后也就拥有了一个强有力的图像信息捕获“工具”,通过这个“工具”完成对现实世界的图像分析和处理,这又促进了生物视觉和生物的其他能力的不断进化,所以视觉在某种程度上促进了生物的进化。

再来看看人类的视觉器官眼睛,眼睛是人类获取外部图像信息的重要渠道,通过眼睛和大脑的联动,我们能快速完成对物体的识别、定位等一系列复杂操作。在这个过程中眼睛的主要工作是帮助人类对外界的特定信息进行收集,然后将这些信息全部传递给大脑,并经过大脑的分析和处理,让相应的器官和肢体完成指定的动作。优秀的运动员要完成高难度的肢体动作,就需要不断对这个过程进行反复训练,以形成特定视觉下的肌肉记忆。人类通过视觉获得了了解世界的更好途径,视觉在人类不断探索世界的道路上是一个不可或缺的助推器。

那么,视觉对于机器而言又承载着什么特殊使命呢?其实在计算机被发明之初并没有计算机视觉的概念,我们知道,科学家们发明计算机的初衷是为了得到一个能够进行高精度、低耗时计算的工具,这个工具用于辅助人类更好地工作。在多年之后出现的计算机视觉概念其实和人工智能的发展密不可分,因为机器能否对视觉信息进行收集、处理和分析,是机器智能的一个重要体现途径,所以让机器拥有人类一样的视觉能力就是计算机视觉诞生的初衷。

传统的计算机视觉大致分为信息的收集、信息的分析和信息的处理三部分内容。

计算机获取外部信息主要通过硬件设备来完成,这些硬件设备可以是一些可以实时捕获高清信息的摄像头,当然,计算机还有其他渠道可以获取图像信息,比如将已经存在的视频或者图片作为图像信息提供给计算机进行处理和分析,这与人类进行信息收集的渠道相比是一个重大区别。

即便有了强大的硬件来捕获图像信息或者已经拥有海量的历史图像数据,但是没有进行图像信息的分析和处理的手段,则要想得到一个智能模型,是不切实际的。承担图像信息分析和处理这个艰巨任务的就是计算机视觉的核心算法,目前进行图像信息分析和处理的核心算法都采用了深度学习方法,通过这些核心算法能够处理很多计算机视觉上的问题,比如图片分类、对图像中目标的定位和语义分割,等等,所以在本书中深度学习方法就是在计算机视觉问题中负责对图像进行信息分析和处理的“大脑”。