Batch Normalization的咒骂（batch-normalization）-人工智能-知优网

Batch Normalization是一种被广泛采用的技术，使训练更加快速和稳定，已成为最有影响力的方法之一。然而，尽管它具有多种功能，但仍有一些地方阻碍了该方法的发展。

Batch Normalization确实是深度学习范畴的重大突破之一，也是近年来研讨人员评论的热门之一。Batch Normalization是一种被广泛选用的技能，使练习愈加快速和安稳，已成为最有影响力的办法之一。可是，尽管它具有多种功用，但仍有一些当地阻止了该办法的开展，正如咱们将在本文中评论的那样，这标明做归一化的办法仍有改善的地步。

一、咱们为什么要用Batch Normalization?

在评论任何事情之前，首要，咱们应该知道Batch Normalization是什么，它是怎么作业的，并评论它的用例。

1. 什么是Batch Normalization

在练习过程中，当咱们更新之前的权值时，每个中心激活层的输出散布会在每次迭代时发生改变。这种现象称为内部协变量移位(ICS)。所以很天然的一件事，假如我想避免这种状况发生，便是缓步代车一切的散布。简略地说，假如我的散布变动了，我会约束住这个散布，不让它移动，以协助梯度优化和避免梯度消失，这将协助我的神经网络练习更快。因而削减这种内部协变量位移是推进Batch Normalization开展的要害准则。

2. 它怎么作业

Batch Normalization经过在batch上减去经历平均值除以经历标准差来对前一个输出层的输出进行归一化。这将使数据看起来像高斯散布。

Batch Normalization的咒骂（batch-normalization） Normalization 深度学习第2张

其间μ和*σ^2^*分别为批均值和批方差。

Batch Normalization的咒骂（batch-normalization） Normalization 深度学习第3张

并且，咱们学习了一个新的平均值和协方差γ和β。所以，简而言之，你能够以为batch normalization是协助你操控batch散布的一阶和二阶动量。

Batch Normalization的咒骂（batch-normalization） Normalization 深度学习第4张

vgg16网络的中心卷积层的特征散布输出。(左)没有任何归一化，(右)运用了batch normalization

3. 长处

我将罗列运用batch normalization的一些优点，可是我不会具体介绍，拜访已经有许多文章评论了这个问题。

更快的收敛。
下降初始权重的重要性。
鲁棒的超参数。

需求较少的数据进行泛化。

Batch Normalization的咒骂（batch-normalization） Normalization 深度学习第5张

1. 更快的收敛，2. 对超参数更鲁棒

二、Batch Normalization的咒骂

好，让咱们回到本文的起点，在许多状况下batch normalization开端损伤功能或底子不起作用。

1. 在运用小batch size的时分不安稳

如上所述，batch normalization有必要核算平均值和方差，以便在batch中对之前的输出进行归一化。假如batch巨细比较大的话，这种核算估量是比较精确的，而跟着batch巨细的削减，估量的精确性持续减小。

ResNet-50在Batch Norm运用32、16、8、4、2张/GPU图画时的验证过错

以上是ResNet-50的验证过错图。能够揣度，假如batch巨细坚持为32，它的终究验证差错在23左右，并且跟着batch巨细的减小，差错会持续减小(batch巨细不能为1，拜访它本身便是平均值)。丢失有很大的不同(大约10%)。

假如batch巨细是一个问题，为什么咱们不运用更大的batch?咱们不能在每种状况下都运用更大的batch。在finetune的时分，咱们不能运用大的batch，避免过高的梯度对模型形成损伤。在散布式练习的时分，大的batch终究将作为一组小batch散布在各个实例中。

2. 导致练习时刻的添加

NVIDIA和卡耐基梅隆大学进行的试验成果标明，“尽管Batch Normalization不是核算密集型，并且收敛所需的总迭代次数也削减了。”可是每个迭代的时刻明显添加了，并且还跟着batch巨细的添加而进一步添加。

ResNet-50 在ImageNet上运用 Titan X Pascal

你能够看到，batch normalization耗费了总练习时刻的1/4。原因是batch normalization需求经过输入数据进行两次迭代，一次用于核算batch核算信息，另一次用于归一化输出。

3. 练习和推理时不一样的成果

例如，在实在国际中做“物体检测”。在练习一个物体检测器时，咱们一般运用大batch(YOLOv4和Faster-RCNN都是在默许batch巨细= 64的状况下练习的)。但在投入生产后，这些模型的作业并不像练习时那么好。这是拜访它们承受的是大batch的练习，而在实时状况下，它们的batch巨细等于1，拜访它有必要一帧帧处理。考虑到这个约束，一些完成倾向于根据练习集上运用预先核算的平均值和方差。另一种或许是根据你的测验集散布核算平均值和方差值。

4. 关于在线学习欠好

与batch学习比较，在线学习是一种学习技能，在这种技能中，体系经过顺次向其供给数据实例来逐渐承受练习，能够是独自的，也能够是经过称为mini-batch的小组进行。每个学习过程都是快速和廉价的，所以体系能够在新的数据抵达时实时学习。

典型的在线学习pipeline

拜访它依赖于外部数据源，数据或许独自或批量抵达。拜访每次迭代中batch巨细的改变，对输入数据的标准和偏移的泛化才能欠好，终究影响了功能。

5. 关于循环神经网络欠好

尽管batch normalization能够明显进步卷积神经网络的练习和泛化速度，但它们很难运用于递归结构。batch normalization能够运用于RNN仓库之间，其间归一化是“笔直”运用的，即每个RNN的输出。可是它不能“水平地”运用，例如在时刻步之间，拜访它会拜访重复的从头缩放而发生爆炸性的梯度而损伤到练习。

[^注]: 一些研讨试验标明，batch normalization使得神经网络简单呈现对立缝隙，但咱们没有放入这一点，拜访缺少研讨和依据。

可替换的办法

这便是运用batch normalization的一些缺陷。在batch normalization无法很好作业的状况下，有几种代替办法。

Layer Normalization
Instance Normalization
Group Normalization (+ weight standardization)
Synchronous Batch Normalization

总结

所以，看起来练习深度神经网络很简略，但我不以为它很简单。从这个意义上说，我能够挑选的架构很少，每个模型都有固定的学习速度，固定的优化器和固定的技巧。这些技巧是经过天然挑选挑选的，就像有人想出了一些技巧，人们引进之后假如有用，就会保存，假如无效，人们终究会忘掉，并没有人再去运用它。除此之外，batch normalization是深度学习开展中的一个里程碑技能。可是，正如前面所评论的，沿着batch 维度进行归一化引进了一些问题，这标明归一化技能仍有改善的空间。