一文了解神经网络作业原理（对神经网络的简单理解）-人工智能-知优网

在深度学习中，计算机模型直接从图像、文本或声音中学习直接如何执行分类任务。深度学习模型可以达到最高的准确度，有时甚至超过了人类的水平。我们通常使用大量标记的数据和包含许多层的神经网络体系结构来训练模型。

材料来历：getwallpapers.com

深度学习是机器学习中重要分支之一。它的意图是教会核算机做那些关于人类来说适当天然的作业。深度学习也是无人驾驶轿车背面的一项要害性技能，能够帮无人车辨认泊车标志、区别行人与路灯柱。它是手机、平板、电视和免提扬声器等设备完结语音操控的要害。深度学习近期以其史无前例的作用取得了广泛重视。

在深度学习中，核算机模型直接从图画、文本或声响中学习直接怎么履行分类使命。深度学习模型能够抵达最高的准确度，有时乃至超过了人类的水平。咱们一般运用许多符号的数据和包含许多层的神经网络体系结构来练习模型。

资源

深度学习的模型可运用到各种杂乱使命中：

1. 人工神经网络（ANN）进行回归和分类

2. 用于核算机视觉的卷积神经网络（CNN）

3. 递归神经网络（RNN）用于时刻序列剖析

4. 自组织地图以进行特征提取

5. 引荐体系的深玻尔兹曼机

6. 引荐体系的主动编码器

在本文中，咱们将尽或许的介绍人工神经网络（ANN）的一切相关内容。

“人工神经网络（ANN）是一种信息处理典范，它遭到生物神经体系（大脑）信息处理办法的启示。由许多高度互连的处理元件（神经元）组成，这些元件协同作业以处理特定问题。”

首要内容：

1. 神经元

2. 激活功用

3. 激活功用的类型

4. 神经网络怎么作业

5. 神经网络怎么学习（反向传达）

6. 梯度下降

7. 随机梯度下降

8. 随机梯度下降练习神经网络

神经元

神经元（也称为神经细胞）是大脑和神经体系的根本单元，经过树突接纳来自外部国际的影响信息，对该信息进行处理后，经过轴突输出给其他细胞。

生物神经元

细胞体（Soma）：神经元细胞的首要部分，包含细胞核，进行必要的生化反响。

树突：神经元周围类似头发的管状结构。首要担任承受输入信号。

轴突：这是一种细长的管状结构，类似于传输线。

突触：神经元以杂乱的空间摆放相互衔接。轴突结尾再次分支，是一种高度杂乱、高度专注的结构，咱们称之为突触。两个神经元之间的联络就产生在这些突触处。

树突接纳其他神经元信息输入。细胞体处理这些传入信息，得到相应的输出成果，该成果经过轴突和突触发送到其他神经元。

电信号流过神经元。

下图代表了受生物神经元启示的ANN一般模型。它也被称为感知器。

单层神经网络一般称为感知器，给定输入它将核算得到输出。

感知器

在上图中，x0, x1, x2, x3...x(n)代表该网络的输入（独立变量），每一个输入在经过所谓的树突时都要乘以相应的权重。该权重表明为w0, w1, w2, w3….w(n)，它显现特定节点的强度。b是偏差值。偏差值能够向上或向下移动激活函数。

最简略的状况，将这些乘积相加并输入传递函数（激活函数）得到成果，然后将该成果作为输出发送。

激活函数

激活函数关于ANN学习和了解真实杂乱的东西很重要。它们的首要意图是将ANN中节点的输入信号转换为输出信号，此输出信号将作为下一层的输入。

激活函数经过核算加权总和偏差值来决议是否激活该神经元。意图是引进非线性。

假如咱们不运用激活函数，那么输出信号将仅仅是线性函数（一阶多项式）。线性函数很简略求解，功耗也相对较小，可是它们的杂乱性遭到必定的约束。因而没有激活函数，咱们的模型就无法进行学习，也无法对杂乱的数据进行建模，例如图画，视频，音频，语音等。

为什么咱们需求非线性函数？

非线性函数是一种具有曲率的函数。现在咱们需求神经网络能够进行学习，能够表明将输入映射到输出的恣意杂乱函数。因而神经网络也被认为是 “通用函数迫临器”。

激活函数的类型：

1. 阈值激活函数—（二进制阶跃函数）

二进制阶跃函数是依据阈值的激活函数。假如输入值高于某个阈值，则神经元被激活并将完全相同的信号发送到下一层；低于某个阈值则不被激活。

二进制函数

此函数的问题是创立一个二进制分类器（1或0），可是假如咱们要衔接多个这样的神经元以引进更多类，如Class1、Class2、Class3等。在这种状况下，一切神经元都将给出1 ，咱们将无法进行判别。

2. Sigmoid激活函数-（逻辑函数）

Sigmoid函数是一种数学函数，具有特征性的“ S”形曲线或S型曲线，规模在0到1之间，因而它用于需求猜测概率为输出。

Sigmoid曲线

Sigmoid函数是可微的，这意味着咱们能够求解恣意2个点的曲线斜率。Sigmoid激活函数的缺陷是，假如供给较大的负输入，则或许导致神经网络在练习时卡住。

3. 双曲正切函数—（tanh）

类似于Sigmoid，但功用更好。它本质上对错线性的，因而咱们能够对各层进行叠加。该函数的规模是（-1,1）。

双曲正切函数

此功用的首要长处是，负输入映射为负输出，而只需零值输入会被映射为挨近零输出。因而，在练习进程中卡顿的或许性较小。

4. 整流线性单元-（ReLu）

ReLu是CNN和ANN中最常用的激活函数，规模从零到无穷大。[0，∞]

ReLu

假如x为正，则给出输出为“ x”；假如x为负，不然输出为0。ReLu看起来是线性函数的问题，但本质上对错线性的，而且ReLu的组合也对错线性的。实践上，它是一个很好的近似器，能够经过组合Relu来近似大部分函数。

它一般运用于神经网络的躲藏层。关于输出层而言，分类问题一般运用softmax函数，回归问题运用线性函数。

这儿存在的一个问题是，某些梯度在练习进程中或许会消失。这会导致权重更新，任何数据点都无法激活该神经元。ReLu根本导致了神经元的逝世。

为了处理这一问题，引进了Leaky ReLu。Leaky ReLu引进了一个小斜率来确保不呈现上述问题。Leaky ReLu规模从-∞到+∞。

ReLu vs Leaky ReLu

Leaky增加了ReLu函数的输出规模。一般，a = 0.01。当a不为0.01时，则称为随机ReLu。

神经网络怎么作业？

让咱们以房地产价格为例，首要，咱们将不同的要素汇总到一行数据中： Area, Bedrooms, Distance to city and Age.

输入值经过加权的突触直接抵达输出层。四个输入值均会被剖析并输入到激活函数中，产生输出成果。

这很简略，可是经过在输入和输出层之间增加一个躲藏层能够扩展神经网络的功用并进步其准确性。

具有躲藏层的神经网络（仅显现非0值）

现在在上图中，一切4个变量都经过突触衔接到神经元。可是，并非一切的突触都被加权。权值包含0值和非0值。在这儿，非零值表明重要性，0值表明输入被丢掉。

让咱们以榜首个神经元的Area和Distance to City为非零的示例为例，这意味着它们对榜首个神经元重要。别的两个变量，Bedrooms而Age权值为0，因而不经过榜首神经元。

您或许想知道为什么榜首个神经元只考虑四个变量中的两个。间隔城市越远房子变得越廉价，这在房地产市场上很遍及。因而，这个神经元所做的作业或许是寻觅离市区较近的房子。

神经元许多，每个神经元用这些变量的不同组合进行类似的核算。一旦满意规范，神经元就会运用激活函数进行核算。

下一个神经元加权的突触或许是Distance to the city和Bedrooms。因而神经元以十分灵敏的办法作业，全面的查找以查找特定的事物。

神经网络怎么学习？

让咱们先来做一个类比。神经网络的学习与咱们正常的学习办法密切相关，咱们首要完结必定的作业，并得到教练的纠正，下一次以更好的办法来完结这个作业。类似地，神经网络需求练习者，来描绘该网络对输入做出的反响。用实践值和猜测值之间的差异，核算一个差错值（也称为本钱函数），并将其发送回体系。

本钱函数：实践值与输出值之间平方差的一半。

关于网络的每一层，都会剖析本钱函数，并用其调整下一个输入的阈值和权重。咱们的方针是使本钱函数最小化。本钱函数越低，实践值就越挨近于猜测值。这样跟着网络的不断学习，每次运转的差错都减小。

咱们经过整个神经网络反应成果数据。将输入变量衔接到神经元的加权突触是咱们仅有能够操控的作业，因而只需实践值和猜测值之间存在差异，咱们就需求调整权重。一旦略微调整它们并再次运转神经网络，便会产生一个新的本钱函数，咱们期望它能够比上一个小。重复此进程，直到将本钱函数降低到尽或许小的水平停止。

上述进程称为反向传达，并经过网络接连进行，直到将差错值保持在最小值停止。

反向传达

调整权重的办法有两种：
1.蛮力办法
2.批梯度下降

蛮力法

合适单层前馈网络。在这儿，咱们需求考虑许多或许的权重。在这种办法中，咱们想要放弃除U形曲线底部权值以外的一切其他权重。最佳权值能够运用简略的消除技能找到。假如咱们只需求优化一个权重，那么这种办法很有用。但假如是具有许多权重的杂乱神经网络，该办法将因维数太高而无法完结。

分批梯度下降

它是一阶迭代优化算法，在练习具有不同权重模型的进程中找到最小本钱值（丢失）。

梯度下降

在“梯度下降”进程中，咱们不会一次都检查每个权重并除掉过错的权重，而是检查函数斜率。

假如斜率→负值，则表明您沿着曲线下降。
假如斜率→正，则不履行任何操作

这样，能够消除许多不正确的权重。

随机梯度下降（SGD）

如上图所示，当咱们具有凸曲线时，突变下降作用很好。可是，假如咱们没有凸曲线，则突变下降将失利。

“ 随机 ” 一词是指与随机概率相关的体系或进程。因而，在随机梯度下降中，随机挑选一些样本，而不是每次迭代的整个数据集。

随机梯度下降

在SGD中，咱们一次获取一行数据，经过神经网络运转该数据，然后调整权重。关于第二行，咱们运转它，然后比较Cost函数，然后再次调整权重。

SGD协助咱们避免了部分极小值的问题。它比Gradient Descent快得多，因为它一次运转每一行，而且不必将整个数据加载到内存中即可进行核算。

要注意的一件事是，因为SGD一般比典型的Gradient Descent噪声更大，因而因为其下降的随机性，一般需求更多的迭代次数才干抵达最小值。虽然与典型的Gradient Descent比较，它需求更多的迭代次数才干抵达最小值，但在核算耗费上仍比典型的Gradient Descent少得多。因而，在大多数状况下，SGD优于分批梯度下降。

使用随机梯度下降练习神经网络

过程1→将权重随机初始化为挨近0但不为0的小数。

过程2→在输入层中输入数据集的榜首个观测值，每个要素放在一个节点中。

过程3→ 正向传达：从左到右，神经元按次序被激活，直到取得猜测值。每个神经元的影响都受权重的约束。

过程4→将猜测成果与实践成果进行比较，并丈量的差错（本钱函数）。

过程5→ 反向传达：从右到左，差错反向传达。依据它们对过错形成的影响来更新权重。学习率决议了咱们更新权重的程度。

过程6→重复过程1至5，并在每次比较后更新权重（强化学习）

过程7→当整个练习集经过ANN时，就完结了。

定论