1.2 人工智能的常见流派
说起人工智能历史,如果从人类想象构建一个具有智慧的机器开始,其实可以追溯到很久之前。从大家熟知的匹诺曹的故事中可以看出,人类其实很早就开始寻找一种具有智慧并能辅助我们的工具。现在意义上的人工智能,其最早被提出可以追溯到古典哲学时代,古典哲学家们试图将人类思考的过程描述为一些符号运算。这项工作在20世纪40年代可编程数字计算机发明时期达到了第一个高潮,借助这种能将数学抽象、推理、付诸实践的机器,科学家开始认真考虑如何构建一个电子大脑。在这个过程中逐渐演化出了以下3个流派。
1.符号主义
1944年,赫伯•西蒙(Herb Simon)发表了他的观点,他认为,“任何理性的决定都可以看作在某些前提下得出的结论,因此,只要指定了决策依据的价值和事实前提,就可以控制一个理性人的行为”。这个观点为符号主义理论奠定了基础。符号系统基于如下假设:可以通过对符号的操作在许多方面实现智能的行为。这个流派的典型代表就是专家系统,即将符号规则用类似if…then语句进行连接,就可以使用人类可读的符号来处理规则,得出结论并确定需要哪些附加信息。20世纪60 年代,这种方法在一些小型演示中取得了巨大的成功,使基于控制论或人工神经网络(ANN)的理论几乎被遗忘。
2.连接主义
上面提到了人工神经网络,其实它比符号主义更加久远,但直到20世纪中后期才被人们认识。连接主义是认知科学领域中的一种方法,其希望使用人工神经网络来解释心理现象。连接主义提出了一种认知理论,该认知理论基于同时发生的、分布的、可以量化的信号活动,通过经验调整连接强度来进行学习。连接主义的优点包括适用于多种场景、与生物神经元的结构近似、对先天结构的要求低,以及适度降级。但连接主义也包含一些缺点,如难以解释人工神经网络如何处理信息,以及由此带来的更高层次的现象解释难度。
3.行为主义
行为主义又称为进化主义或控制论学派。行为主义的本质是探索世界的一种跨学科研究方法,包括研究结构、约束和可能性等。行为主义源于神经病学的一项研究,其认为大脑是一个以全有或全无脉冲发射的神经网络。20世纪40年代和50年代,许多研究人员对此进行了研究,他们中的一些人制造了使用电子网络来展示基本智能的机器,如W.Gray Walter的海龟和Johns Hopkins的移动机器人。
其实上述3个流派的诞生时间都早于“人工智能”这个概念的诞生时间。1956年,Marvin Minsky、John McCarthy两位资深科学家组织了达特茅斯会议。在会议上,John McCarthy说服参会者接受将“人工智能”这一名词作为一种领域的名称。这是“人工智能”领域首次获得名称,同时这一刻也被认为是现代人工智能的诞生时间。在这之后的若干年是一个大发现的时代,在这段时间里出现了一些令人惊讶的程序,计算机开始学会解决代数问题、证明几何定理,甚至学会说英语。研究人员有着强烈的乐观态度,并预测将在不到20年的时间内制造出完全智能的机器。然而在人们经过一段过于乐观的时期之后,最终在1973年,因詹姆斯·莱特希尔(James Lighthill)的批评及国会不断施加的压力,美国和英国政府停止了对人工智能无方向研究的资助,随后的艰难岁月被称为“第一次人工智能冬天”。
回顾这段历史我们不难发现,其实人工智能的发展并不是一帆风顺的,其中经过了数次轮回,其理论发展也几度起伏。各个流派都曾发挥过自己的优势,也表现出劣势,如今伴随着计算能力的突飞猛进,特别是图形处理单元(GPU)的大规模普及,经过第二次人工智能冬天后,我们迎来了第三次人工智能的发展高潮。其中深度学习(Deep Learning)无疑是最热门、最重要的一个发展方向,后面我们将探讨什么是深度学习,这也是本书的研究重点。
提到深度学习,不难想到经常和它一起出现的一个名词——大数据(Big Data),深度学习是构建在越来越快速、廉价的计算机硬件之上的,用来研究、处理海量数据的技术。相比于传统的方法,深度学习似乎具有一种不可思议的普适性,如在自然语言的处理和理解、图像识别等方面很快地击败了传统的研究方法,达到了可以实用的程度。而它所采用的方法和之前的先观察现象然后提炼规律、数学建模、模拟解析、实验检验、修正模型又有非常大的不同。以一个识别手写数字的过程为例,对其进行说明。通过观察我们认为,数字9是由上面的圆圈与一个与该圆圈右侧连接的向下的线段构成的,然后我们尝试用程序实现识别数字9。当然这并不简单,就算我们实现了这个算法,在实际运用时也会迅速陷入一个混乱的、充满异常和特殊情况的泥潭中。
深度学习在处理这个问题时采用了完全不同的方式:选取大量的手写数字(称为训练示例),然后开发一个可以通过这些训练示例进行学习的系统。换句话说,神经网络使用这些训练示例来自动推断用于识别手写数字的规则。只需要增加训练示例的数量,神经网络就可以了解更多有关手写数字的信息,从而提高识别准确性。这个过程简单直接,也正是深度学习无可比拟的优点。这只是其中一个示例,当我们换用不同的场景时,如人脸识别或语音识别,使用的方法基本相同,区别只在于训练示例不同。我们可以在生物界中找到类似的例子,MIT的科学家做了这样一个实验,将一个年幼的猴子的视觉神经和听觉神经剪断后相互交换再连接起来,这完全不影响猴子的视觉和听觉的发育。因此对于拓扑问题和几何问题,我们可以采取完全不同的计算工具和理论。
另外深度学习还有一个优点,相对于之前的研究方法,深度学习涉及的算法的数学理论相对简单,工程化的难度相对较低。算法对深度学习来说并不是那么重要,更加重要的是拥有庞大和完整的数据。因为越多的数据意味着越多的抽象和越高的精度,深度学习通过构建类似人类视觉中枢中层次的概念,可以抽象出具体的特征,被低层网络总结,而高层网络又能从低层网络中提取全局的抽象特征。因此深度学习通常可以将一些难以定性表达的事物抽象出来,如画作的风格、音乐的风格等。这些特征现在可以被类似于权重和偏移的东西量化,从而被识别、处理、转换和融合,如语音识别、人脸识别,这体现了深度学习无可比拟的实用价值,也为工业化、商业化提供了难以想象的广阔空间。
但也正因为此,深度学习存在巨大缺陷,具体如下。
首先,因为使用了大量的权重等进行抽象,深度学习对于人类来说难以理解,也无法被解释。另外从某种意义上来说,现在的深度学习更像一种分类,其通过对数据进行一些维度上的转换得出一个概率上的分布。因此这种方法揭示了现象与结果间的相似性而非因果关系。但因果关系才是人类现代科学的基石,单纯的相似性更像魔法而非科学,要想知道因果关系,还需经过深度提炼和总结。
其次,深度学习缺少通用性,深度学习一般是针对特定场景进行学习的。例如,针对人脸表情进行识别,其中涉及很多因素,如人脸的几十条肌肉角度、光源强度、视角的方向等。为了训练神经网络,我们通常需要构建数十万个维度,涉及的训练数据量巨大,耗费时间也较长。并且我们越追求结果的精确性就越缺少通用性,因为这些维度一般并不适用于其他场景。
另外,深度学习的理论性相对较弱,对经验性要求较强。参数的调节更像是一门艺术,而非工艺。和传统的方法相比,深度学习的算法收敛性更低。虽然深度学习在视觉领域取得了令人瞩目的成绩,但在其他方面(如数学推理),特别是在定理证明方面,深度学习就无能为力了,因为深度学习的算法体现的是现象与结果之间的相似性,而非本质联系,这导致深度学习的算法缺乏一个统一的世界观,如人类通过观察可以发现物质是受引力影响的,在没有外力支撑时都是会下落的。对于深度学习来讲,它可以通过训练知道苹果会从树上掉落,却不知道树叶也会掉落。这种推理是符号主义所强调的,因此如何结合深度学习和符号主义将是今后人工智能需要研究的方向。
符号主义采用模仿数理科学的方式,将知识系统地整理成公理体系。符号主义将数学严格公理化,从公理出发,由逻辑推理得到引理、定理、推论。广义而言,符号主义将数学发现整理成了一系列的逻辑代数运算,将直觉洞察替代为机械运算。实践表明,符号主义在初等几何领域、机械定理证明上取得了巨大成功。例如,吴文俊方法和Groebner基方法可以推演出几乎所有经典欧氏几何的定理,即以输入图形的关键点建立坐标,将已知的几何条件表示成代数方程(一般表示成关键点坐标的多项式方程),将结论的几何条件转化为多项式方程。因此定理证明即等价于验证多项式生成的结果在确定的范围。
和机械学习方法类似,机械定理证明将千奇百怪的几何定理证明方法都转化为一种方法,因此具有极大的普适性;同时,机械定理证明可以保证推导过程中出现错误的概率极小。人们一度相信,在计算机的帮助下,许多深刻的定理将会轻易被证明。
不过这里也存在机械主义推理的问题。
哥德尔的工作证明,对于任何一个公理体系,总存在一个客观真理,不被此公理体系包含。这在某种意义上意味着人类探索自然真理的过程是无限的。对于任何一个包含算术公理体系的公理体系,总存在一个命题,这个命题无论对错都和公理体系不发生矛盾。例如,我们知道有理数有无穷多个,实数有无穷多个,有理数可以和实数的一个子集建立双射,实数无法和有理数的子集建立双射,从这个意义上而言,有理数少于实数。那么,是否存在一个无穷数集,它的个数介于有理数和实数之间?这个问题的答案无论是有还是无,都不与现代数学公理体系发生矛盾。
另外,机械定理证明在根本上是“证明”了定理,还是“检验”了定理?
在数学历史上,对于一个著名猜想的证明和解答而言,答案本身并不重要,在寻找证明的过程中凝练概念、提出方法、发展理论才是真正目的所在。机械定理证明虽然验证了命题的真伪,但是无法明确地提出新的概念和方法,这背离了数学的真正目的。例如,地图四色定理证明,数学家将平面图的构型分成1936种,然后用计算机逐一验证,在这一过程中,没有新颖概念的提出。换言之,就是用机械蛮力替代了几何直觉。
需要注意的是,机械定理证明的前提是问题的代数化。
初等几何问题必须经过坐标化、条件和结论的代数化之后,才能运用理想理论来进行机械定理证明。但是,几何问题代数化本身可能就是最“智能”的步骤。例如,大量黎曼几何和低维拓扑中的命题无法被直接代数化。希尔伯特定理是说多元多项式环中的理想都是有限生成的,这一定理保证了Groebner基方法在有限步骤内停止,但是Groebner基方法在计算过程中消耗的空间有可能是超指数膨胀的,因此在现实中,对于复杂的定理证明,这个方法无法胜任。
另外,人类经常无法理解机械定理证明给出的结果,因此无法从中直接得到启迪。
迄今为止,机械定理证明尚未发现具有重大意义的、人类未曾知道的定理。
虽然上文提到了一些符号主义的局限性,但实际上,符号主义和深度学习是互相融合、互相帮助的。例如,对于棋类比赛来说,传统方法将棋类规则看作一个公理体系,利用逻辑推理加上空间搜索来进行推演。不过这会导致空间指数膨胀,如何减少这种膨胀就是问题关键。而“剪枝”(去掉多余无效的搜索路径)依赖于通过经验识别一些有意义的模式,这正是深度学习所擅长的。
世界是不完美的,虽然深度学习和符号主义各自都拥有一些缺陷,但并不能说深度学习这种方法是没有意义的。例如,人类虽然可以轻松识别不同人的脸部,但为什么能识别张三是张三而不是李四也是我们无法解释的。这其实就是我们的一种本能,人类神奇的地方就是产生了意识和智能。因此将大量这种类似本能的能力构建成一个具有相对统一标准的系统之时就是人工智能真正诞生之时。