令人入神的无梯度神经网络优化办法（神经网络最优化方法）-人工智能-知优网

梯度下降是机器学习中最重要的思想之一：给定一些代价函数以使其最小化，该算法迭代地采取最大下降斜率的步骤，理论上在经过足够的迭代次数后才达到最小值。柯西(Cauchy)于1847年首次发现，在1944年针对非线性优化问题在Haskell Curry上得到扩展，梯度下降已用于从线性回归到深度神经网络的各种算法。

梯度下降是机器学习中最重要的思维之一：给定一些价值函数以使其最小化，该算法迭代地采纳最大下降斜率的过程，理论上在通过满足的迭代次数后才到达最小值。柯西(Cauchy)于1847年初次发现，在1944年针对非线性优化问题在Haskell Curry上得到扩展，梯度下降已用于从线性回归到深度神经网络的各种算法。

虽然梯度下降及其反向传达方式的从头用处已成为机器学习的最大打破之一，但神经网络的优化依然是一个没有处理的问题。互联网上的许多人都乐意声称"梯度下降很烂"，虽然或许有些悠远，但梯度下降确实存在许多问题。

优化程序陷入了满足深的部分最小值中。固然，有一些聪明的处理方案有时可以处理这些问题，例如动量，它可以使优化器在大山丘上行走。随机梯度下降;或批量归一化，然后滑润过错空间。可是，部分最小值依然是神经网络中许多分支问题的根本原因。

令人入神的无梯度神经网络优化办法（神经网络最优化方法）神经网络优化机器学习第2张

由于优化器对本地极小值很感兴趣，所以即便设法脱节它，也要花费很长时刻。梯度下降法一般是一种冗长的办法，由于它的收敛速度慢，即便对大数据集(如批梯度下降法)进行了调整也是如此。

梯度下降对优化器的初始化特别灵敏。例如，假如优化器在第二个部分最小值而不是第一个部分最小值邻近初始化，则功用或许会好得多，但这都是随机确认的。

学习率决议了优化器的决心和风险。设置过高的学习率或许会导致它疏忽大局最小值，而过低的学习会导致运转时刻中止。为了处理这个问题，学习率跟着迭代衰减，可是在许多指示学习率的变量中挑选衰减率是困难的。

梯度下降需求梯度，这意味着它除了无法处理不行微的函数外，还简略呈现依据梯度的问题，例如消失或爆破的梯度问题。

当然，现已对梯度下降进行了广泛的研讨，而且提出了许多主张的处理方案，其间一些处理方案是GD变体，而其他处理方案是依据网络体系结构的。只是由于梯度下降被高估了并不意味着它不是当时可用的最佳处理方案。即便运用批处理规范化来滑润过错空间或挑选杂乱的优化器(如Adam或Adagrad)，这些通用常识也不是本文的要点，即便它们一般体现更好。

取而代之的是，本文的意图是向一些不流畅难明确实认性风趣的优化办法供给一些理所应得的信息，这些办法不适合依据梯度的规范办法，该办法与任何其他用于改进该办法功用的技能相同。神经网络在某些状况下体现特别超卓，而在其他状况下则体现欠安。不管他们在特定使命上的体现怎么，他们关于机器学习的未来都充满着魅力，创造力和充满希望的研讨范畴。

粒子群优化PSO

粒子群优化是一种依据种群的办法，它界说了一组探究查找空间并企图寻觅最小值的"粒子"。PSO相关于某个质量指标迭代地改进了候选处理方案。它通过具有许多潜在的处理方案("粒子")并依据简略的数学规矩(例如粒子的方位和速度)移动它们来处理该问题。每个粒子的运动都受到其以为最佳的部分方位的影响，但也被查找方位(由其他粒子找到)中最闻名的方位所招引。从理论上讲，该集体通过屡次迭代以求出最佳处理方案。

令人入神的无梯度神经网络优化办法（神经网络最优化方法）神经网络优化机器学习第3张

材料来历：维基

PSO是一个风趣的主意-与神经网络比较，它对初始化的灵敏度要低得多，而且在某些发现上的粒子之间的通讯或许被证明是一种查找稀少和大面积区域的十分有用的办法。

由于粒子群优化不是依据梯度的(gasp!)，所以不需求优化问题是可微的。因而，运用PSO优化神经网络或任何其他算法将对挑选其他函数中的激活函数或等效人物具有更大的自由度和更低的灵敏性。此外，它简直没有关于优化问题的假定，乃至可以查找很大的空间。

可以狠毒，依据整体的办法比依据梯度的优化器在核算上要贵重得多，但不必定如此。由于该算法是如此敞开和非刚性-正如依据进化的算法一般如此，因而人们可以操控粒子的数量，粒子的移动速度，大局同享的信息量等等。就像或许会调整神经网络中的学习率相同。

署理优化是一种优化办法，它测验运用另一个完善的函数对丢失函数建模以找到最小值。该技能从丢失函数中采样"数据点"，这意味着它测验运用不同的参数值(x)并存储丢失函数的值(y)。在搜集到满足数量的数据点之后，将署理函数(在这种状况下为7次多项式)拟合到所搜集的数据。

令人入神的无梯度神经网络优化办法（神经网络最优化方法）神经网络优化机器学习第4张

由于找到多项式的最小值是一个通过充沛研讨的主题，而且存在许多运用导数来找到多项式的大局最小值的十分有用的办法，所以咱们可以假定代替函数的大局最小值关于丢失是相同的函数。

署理优化从技能上讲是一种非迭代办法，虽然署理功用的练习一般是迭代的。此外，从技能上讲，它是一种无梯度办法，虽然查找建模函数大局最小值的有用数学办法一般依据导数。可是，由于迭代和依据梯度的特点都是代替优化的"非有必要"特点，因而它可以处理大数据和不行微的优化问题。

运用署理函数的优化在以下几种方面的特性：

它实质上是在滑润实在的丢失函数的外表，然后减少了锯齿状的部分最小值，该部分最小值导致了神经网络中许多额定的练习时刻。
它将一个困难的问题投影到一个简略得多的问题上：不管是多项式，RBF、GP、MARS仍是其他代替模型，寻觅大局最小值的使命都会凭借数学常识来完结。
过拟合代替模型并不是什么大问题，由于即便有相当多的过拟合，代替函数也比实在丢失函数更滑润，良莠不齐。除了树立简化的数学倾向模型外，还有许多其他规范考虑要素，因而练习代替模型要简略得多。
代替优化不受当时方位的约束，由于它看到了"整个函数"，而不是梯度下降，梯度下降有必要不断做出风险的挑选，以决议是否以为下一个山峰会有更深的最小值。

代替优化简直总是比梯度下降办法快，但一般以准确性为价值。运用署理优化或许只能查明大局最小值的大致方位，但这依然可以极大地获益。

另一种办法是混合模型。代替优化用于将神经网络参数带到大略方位，从中可以运用梯度下降法找到切当的大局最小值。另一个办法是运用代替模型来辅导优化程序的决议计划，由于代替函数可以a)"先见之明"和b)对丢失函数的特定崎岖不灵敏。

模仿退火

模仿退火是依据冶金退火的概念，其间可以将材料加热到其重结晶温度以上，以下降其硬度并改动其他物理特性，有时还改动化学特性，然后使材料逐步冷却并再次变硬。

运用缓慢冷却的概念，跟着对溶液空间的探究，模仿退火缓慢地下降了承受较差溶液的或许性。由于承受较差的处理方案可以对大局最小值进行更广泛的查找(以为-跳过山丘进入更深的山沟)，因而模仿退火假定可以在第一次迭代中正确表明和探究各种或许性。跟着时刻的消逝，该算法从探究转向开发。

以下是模仿退火算法怎么作业的大略概述：