第2章 神经网络原理
2-1 必备的数学与统计知识
现在每天几乎都会看到几则有关AI的新闻,介绍AI的各种研发成果,一般人也许会基于好奇想一窥究竟,了解背后运用的技术与原理,但会发现涉及一堆数学符号及统计公式,可能就会产生疑问:要从事AI系统开发,非要搞定数学、统计不可吗?答案是肯定的,我们都知道机器学习是从数据中学习到知识(Knowledge Discovery from Data, KDD),而算法就是从数据中提取出知识,它必须以数学及统计为理论基础,才能证明其解法具有公信力与精准度。然而数学/统计理论都有局限,只有在假设成立的情况下,算法才是有效的,因此,如果不了解算法各个假设,随意套用公式,就好像无视交通规则,在马路上任意飚车一样危险。
因此,对于深度学习而言,我们至少需要熟悉以下学科:
(1)线性代数(Linear Algebra);
(2)微积分(Calculus);
(3)统计与概率(Statistics and Probability);
(4)线性规划(Linear Programming)。
以神经网络权重求解的过程为例,四门学科就全部用上了,如下图所示。
图2.1 神经网络权重求解过程
(1)正向传导:由“线性代数”计算误差及损失函数。
(2)反向传导:通过“偏微分”计算梯度,同时,利用“线性规划”优化技巧寻找最优解。
(3)“统计”则串联整个环节,例如数据的探索与分析、损失函数定义、效能衡量指标,通通都基于统计的理论架构而成。
(4)深度学习的推论以“概率”为基础,预测目标值。
四项学科相互为用,贯穿整个求解过程,因此,要通晓深度学习的运作原理,并且正确选用各种算法,甚至能够修改或创新算法,都必须对其背后的数学和统计有一定的基础认识,以免误用或滥用。
相关的数理基础可参考拙作《深度学习全书:公式+推导+代码+TensorFlow全程案例》第2章的介绍,本书直接切入主题,针对张量(Tensor)运算进行较详尽的说明。