3.1 局部极小值，鞍点和非凸优化_深度学习必学的十个问题：理论与实践-仙侠网

上QQ阅读APP看书，第一时间看更新

3.1　局部极小值，鞍点和非凸优化

正如我们在第2章讨论的，基于梯度的一阶和二阶优化都在梯度为零的点停止迭代，梯度为零的点并非表示我们真的找到了最佳的参数，更可能是局部极小值或者鞍点，在统计学习的大部分问题中，我们似乎并不关心局部极小值和全局最小值的问题，这是因为统计学习的损失函数经过设计是一个方便优化的凸函数，会保证优化问题是一个凸优化问题。

在凸优化问题中，比如最小二乘和线性约束条件下的二次规划，参数空间的局部最小值必定是全局最小值。但对于神经网络这样复杂的参数空间，损失函数就不再是一个凸函数，如图3.1，非凸函数的局部极小值可能与全局极小值相去甚远，那么在理论上就无法保证一定会找到全局极小值。

但是我们并不用担心这样的问题，优化停止在局部极小值也是非常困难的，因为在高维参数空间中，局部极小值的海森矩阵必须是正定的，也就是说每个维度上的二阶导数都必须为正，要陷入真正的局部极小值也是很困难的。我们可以假设某一维度的二阶导数为正的概率为s，那么在一个d维的参数空间的，找到局部极小值概率就是sd，可以看出局部极小值随着参数空间维度的增加，概率指数级下降。另一方面，目前的主流观点认为，局部极小值也具有小的损失函数，优化的目的只需要将损失函数降到足够低的水平，所以即便找到了局部极小值，但是损失函数已经降低到了足够低的水平，也是可以接受的。从理论上来说，真正容易陷入的是鞍点，鞍点的存在条件更为宽松，因为它在各个维度上二阶导数有正有负。虽然有实验表明，基于梯度下降的算法可以逃离鞍点，但在理论上并无保证，面对更广泛的场景，单纯的梯度下降对于鞍点的表现仍然是一个需要证明的问题。

图3.1　损失函数在二维参数空间的可视化，（a）为典型的凸函数，（b）为非凸函数