![深度学习时代的计算机视觉算法](https://wfqqreader-1252317822.image.myqcloud.com/cover/870/53255870/b_53255870.jpg)
|1.5 计算机视觉简介|
计算机视觉是一门研究如何使机器感知世界的学科,它利用摄像机和电脑来模拟人眼和人的大脑对拍摄的图片进行自动化的检测、识别和跟踪的过程,属于人工智能的范畴。按照任务等级,计算机视觉可以划分成底层、中层和高层的任务。底层任务是指对图片的像素进行操作,包括滤波、复原重建、超分辨和风格迁移等;中层任务是在像素基础上提取各种特征;高层任务是指模拟大脑对图片进行检测和识别等。
在国际计算机视觉挑战赛(ILSVRC)举办的前两年,各种手工设计的特征配合编码以及SVM等算法占据了前几名。2012年是计算机视觉的新起点,Alex Krizhevsky提出AlexNet之后,深度学习(尤其是CNN)被广泛地应用于计算机视觉领域的各项任务。
计算机视觉之所以发展得这么快,与其应用领域广泛是分不开的,包括智能安防、自动驾驶、移动互联网、智能医疗和遥感图像解译等。公开的数据集可用于训练计算机视觉算法,为衡量算法性能提供了统一的标准,也促进了计算机视觉的快速发展。自然场景图像的分类数据集ImageNet、检测数据集PASCAL VOC和MS COCO是经常使用的3个数据集。
ImageNet是斯坦福大学李飞飞主导建立的大型数据集,主要有分类、检测、定位和分割等任务。ImageNet有1400多万幅图片,包括20000多个类别,数据集大小约为1TB,其中超过100万张图片有明确的类别标注和物体位置的标注。ILSVRC是一项重要的计算机视觉任务的竞赛,每年都会得到工业界和学术界的广泛参与,现有的深度学习模型大多是在这个数据集上训练和测试的。
PASCAL VOC和MS COCO是通用目标检测和分割领域里经常用到的两个数据集。PASCAL VOC有20类目标的位置及类比标签,其对早期检测工作起到了重要的推动作用。MS COCO是微软提供的包含常见的80类物体的数据集,2014年发布的数据训练集有8万张图片,验证集有4万张图片,测试集有4万张图片,在数据集上可以进行检测、分割和关键点定位等任务,相比于PASCAL VOC,该数据集中目标的尺寸更小、难度更大。
由于在自然场景图像的分类数据集ImageNet上预训练得到的模型参数相比于初始化更好,目前检测任务基本上是加载这些预训练的参数,并在检测数据集(例如PASCAL VOC)上进行微调的。
计算机视觉常见任务包括图像分类、目标检测、图像分割、图像目标跟踪、姿态估计、行人重识别、人脸识别和图像超分辨重建等。随着CNN的发展,不同的任务采用的算法思路趋向统一,即计算机视觉的各项任务均可以通过CNN提取特征,每项任务仅需要设计好具体任务采用的前端即可,在一定程度上深度学习时代的计算机视觉算法可以纳入一个模型,这也是本书集中讲解这些计算机视觉任务的目的。