怎么从零开始构建深度学习项目？这里有一份具体的教程（从零开始学程序）-人工智能-知优网

在学习了有关深度学习的理论课程之后，很多人都会有兴趣尝试构建一个属于自己的项目。本文将会从第一步开始，告诉你如何解决项目开发中会遇到的各类问题。

在学习了有关深度学习的理论课程之后，许多人都会有爱好测验构建一个归于自己的项目。本文将会从榜首步开端，告知你怎么处理项目开发中会遇到的各类问题。

本文由六大部分组成，包含深度学习 ( DL ) 项目的整个进程。咱们将运用一个主动漫画上色项目来阐明深度学习的规划、程序调试和参数调整进程。

本文主题为「怎么发动一个深度学习项目?」，分为以下六个部分：

榜首部分：发动一个深度学习项目
第二部分：创立一个深度学习数据集
第三部分：规划深度模型
第四部分：可视化深度网络模型及衡量方针
第五部分：深度学习网络中的调试
第六部分：改善深度学习模型功用及网络调参

榜首部分：发动一个深度学习项目

1. 应该挑选什么样的项目?

许多人工智能项目其实并没有那么严厉，做起来还很风趣。2017 年头，我着手发动了一个为日本漫画上色的项目，并作为我对生成对立网络 ( GAN ) 研讨的一部分。这个问题很难处理，但却很吸引人，尤其是关于我这种不会画画的人来说!在寻觅项目时，不要局限于增量性改善，去做一款适销对路的产品，或许创立一种学习速度更快、质量更高的新模型。

2. 调试深度网络(DN)十分扎手

练习深度学习模型需求数百万次的迭代，因而查找 bug 的进程十分困难，而且简略崩坏。因而咱们要从简略的当地着手，按部就班，例如模型的优化(如正则化)一直能够在代码调试完成后进行。此外，咱们还需求常常可视化猜想成果和模型衡量规范，而且咱们首要需求令模型跑起来，这样就有一个能够撤退的基线。咱们最好不要陷在一个很大的模型，并测验将一切的模块都弄好。

3. 衡量和学习

雄伟的项目方案或许带惨烈的失利。大都个人项目的榜首个版本会持续两到四个月，这个时刻十分时刻短，因为研讨、调试和试验都需求花费许多的时刻。一般咱们组织这些杂乱的试验，使其通宵运转，到第二天清晨时，咱们期望得到满意的信息来采纳下一步举动。在前期阶段，这些试验不该逾越 12 小时，这是一条杰出的经历规律。为了做到这一点，咱们将漫画上色项目规模缩小到单个动画人物的上色。此外，咱们需求规划许多测验，因而凭借它们剖析模型在试验中的不足之处。一般这些测验不要方案得太远，咱们需求快速衡量、学习，并为下一步规划供给满意的反应。

4. 研讨与产品

当咱们在 2017年春季开端评论漫画上色项目时，Kevin Frans 有一个 Deepcolor 项目，用 GAN 为漫画添加色彩提示。

在确认方针时，你会花很大力气来保证项目完成后依然具有含义。GAN 模型恰当杂乱，2017 年头还没抵达嵌入产品所需的质量水准。可是，假如你把运用规模缩小到产品能够奇妙处理的程度，你就能够把质量进步到商用水准。为此，不管着手发动何种 DL 项目，都要掌握好模型泛化、容量和精确性之间的平衡。

5. 本钱

有必要运用 GPU 来练习实践模型。它比 CPU 快 20 到 100 倍。价格最低的亚马逊 GPU p2.xlarge 站点实例要价 7.5 美元/天，而 8 核 GPU 的价格则高达 75 美元/天。在咱们的漫画上色项目中，一些试验花费的时刻就逾越两天，因而均匀每周花费至少需求 150 美元。至于更快的 AWS 实例，花费或许高达 1500 美元/周。咱们能够购买独立核算机，而不是运用云核算。2018 年 2 月，搭载 Nvidia GeForce GTX 1080 Ti 的台式机价格约为 2200 美元。在练习精调的 VGG 模型时，它比 P2 实例大约要快 5 倍。

6. 时刻线

咱们将开发分为四个阶段，终究三个阶段在屡次迭代中进行。

项目研讨
模型规划
完成及调试
试验及调参

(1) 项目研讨

咱们会先对现有产品进行研讨，以探究它们的缺点。许多 GAN 类型的处理方案运用空间色彩提示，图画有点不明晰，有时还会呈现色彩稠浊。咱们为自己的项目设定了两个月的时刻结构，其中有两个优先事项：生成不带提示的色彩及进步色彩保真度。咱们的方针是：

在单个动画人物上为灰度漫画上色，且不运用空间色彩提示。

(2) 站在伟人的膀子上

接下来，咱们需求了解相关的研讨和开源项目，许多人在开端实践之前至少要看几十篇论文和项目。例如，当咱们深化研讨 GAN 时，发现有十几个新的 GAN 模型: DRAGAN、cGAN、LSGAN 等，阅览研评论文或许会很苦楚，但十分有含义。

深度学习 ( DL ) 代码简练，但很难排查缺点，且许多研评论文常常遗漏了完成细节。许多项目始于开源完成，处理的问题也很相似，因而咱们能够多多查找开源项目。因而咱们在 GitHub 上查看了不同 GAN 变体的代码完成，并对它们进行若干次测验。

第二部分：创立一个深度学习数据集

深度学习项目的成功取决于数据集的质量。在本文的第 2 部分中，咱们将评论创立优质练习数据集的核心问题。

1. 揭露及学术数据集

关于研讨项目，能够查找已树立的揭露数据集。这些数据集能够供给更规整的样本和基线模型功用。假如你有多个可用的揭露数据集，请挑选与你的问题最相关且质量最好的样本。

2. 自界说数据集

关于实践问题，咱们需求来自问题范畴的样本。首要测验查找公共数据集。关于创立高质量自界说数据集的研讨还有所短缺。假如没有可用的材料，请搜索你能够抓取数据的方位。该方位一般有许多参阅，但数据质量一般较低，还需求投入许多精力进行收拾。在抓取样本之前，要专门抽出时刻评价一切选项并挑选最相关的选项。

高质量数据集应该包含以下特征：

类别均衡
数据满足
数据和符号中有高质量信息
数据和符号过错十分小
与你的问题相关

不要一次爬取一切数据。咱们常常凭借标签和分类来抓取网站样本，然后获取与咱们的问题相关的数据。最好的爬取办法是在你的模型中练习、测验少数样本，并依据得到的经历教训改善抓取办法。

收拾你抓取的数据十分重要，不然，即便最好的模型规划也达不到与人类水平恰当的体现。Danbooru 和 Safebooru 是两个十分受欢迎的动漫人物来历，可是一些深化学习的运用程序偏心 Getchu，以取得更高质量的绘图。咱们能够运用一组标签从 Safebooru 下载图画，并直观地查看样本并运转测验来剖析过错(体现欠安的样本)。

模型练习和视觉评价都供给了进一步的信息来细化咱们的标签挑选。跟着迭代的持续，咱们将学到更多，并逐步进行样本堆集。咱们还需求运用分类器进一步过滤与问题无关的样本，如铲除一切人物过小的图画等。与学术数据集比较，小型项目搜集的样本很少，在恰当情况下能够运用搬迁学习。

下面的左图由 PaintsChainer 供给，右图由终究的模型上色：

咱们决议用一些练习样原本对算法进行测验。成果并没有给人惊喜，运用的色彩较少，款式也不正确。

因为对模型进行了一段时刻的练习，咱们知道什么样的绘图体现欠佳。正如预期的那样，结构错综杂乱的绘图更难上色。

这阐明好好挑选样本十分重要。作为一款产品，PaintsChainer 专心于它们拿手的线条类型，这点十分正确。这次我运用了从互联网上挑选的洁净线条艺术，成果再次给人惊喜。

这里有一些经历教训：数据没有好坏之分，只是有些数据不能满意你的需求。此外，跟着样本类别的添加，练习和坚持输出质量会变得愈加困难，删去不相关的数据能够得到一个更好的模型。

在开发前期，咱们认识到一些绘图有太多错综杂乱的结构。在不明显添加模型容量的情况下，这些绘图在练习中发生的价值很小，因而最好不要运用，不然只会影响练习功率。

要点回忆

尽或许运用公共数据集;
寻觅能够获取高质量、多样化样本的最佳网站;
剖析过错并过滤掉与实践问题无关的样本;
迭代地创立你的样本;
平衡每个类别的样本数;
练习之前先收拾样本;
搜集满意的样本。假如样本不行，运用搬迁学习。

第三部分：深度学习规划

第三部分介绍了一些高层次的深度学习战略，接下来咱们将具体介绍最常见的规划挑选，这或许需求一些根本的 DL 布景。

1. 简略灵敏

规划初始要简略、细巧。在学习阶段，人们脑际中会充满许多很帅的观念。咱们倾向于一次性把一切细节都编码进来。但这是不现实的，最开端就想要逾越顶尖的成果并不实践。从较少网络层和自界说开端规划，后边再做一些必要的超参数精调方案。这些都需求查验丢失函数一直在下降，不要一开端就在较大的模型上浪费时刻。

在简略的 Debug 之后，咱们的模型经过 5000 次迭代发生了简略的成果。但至少该模型所上的色彩开端约束在固定区域内，且肤色也有些显露出来。

在模型是否开端上色上，以上成果给了咱们有价值的反应。所以不要从大模型开端，不然你会花费许多时刻 Debug 和练习模型。

2. 优先性以及增量规划

首要为了发明简略的规划，咱们需求选出优先项。把杂乱问题分解成小问题，一步一步处理。做深度学习的正确战略是快速的履行学到的东西。在跳到运用无暗示(no hints)模型之前，咱们先运用带有空间色彩暗示的模型。不要一步跳到「无暗示」模型规划，例如咱们首要去掉暗示中的空间信息，色彩质量会急剧下降，所以咱们改动优先性，在做下一步前先精粹咱们的模型。在规划模型的进程中，咱们会遇到许多惊喜。比较于做个要不断改动的长时刻方案，还不如以优先性驱动的方案。运用更短、更小的规划迭代，然后保证项目可管理性。

3. 防止随机改善

首要剖析自己模型的缺点，而不是随意地改善，例如用双向 LSTM 或许 PReLU。咱们需求依据可视化模型差错(体现极差的场景)以及功用参数来确认模型问题。随意做改善反而拔苗助长，会成份额的添加练习本钱，而报答极小。

4. 约束

咱们把约束运用到网络规划，然后保证练习更高效。树立深度学习并不是简略的把网络层堆在一起。添加好的约束(constraints)能使得学习更为有用，或许更智能。例如，运用留意机制，能让网络知道留意哪里，在变分自编码器中，咱们练习躲藏因子使其遵守正态分布。在规划中，咱们运用去噪办法经过归零除掉空间色彩暗示的许多分数。啼笑皆非的是，这使得模型能更好地学习、泛化。

5. 规划细节

文章接下来的部分，将评论深度学习项目中会遇到的一些常见的规划挑选。

(1) 深度学习软件结构

自谷歌 2015 年 11 月发布 TensorFlow 以来，短短 6 个月就成为了最盛行的深度学习结构。尽管短期看起来难有竞争对手，但一年后 Facebook 就发布了 PyTorch，且极大的受研讨社区的重视。到 2018 年，现已有许多的深度学习渠道可供挑选，包含 TensorFlow、PyTorch、Caffe、Caffe2、MXNet、CNTK 等。

一些研讨员之所以转向 PyTorch 有一首要要素：PyTorch 规划上重视端用户(end-user)，API 简略且直观。过错信息能够直观地了解，API 文档也十分完好。PyTorch 中的特征，例如预练习模型、数据预处理、载入常用数据集都十分受欢迎。

TensorFlow 也十分棒，但目前为止它仍是选用自下而上的办法，使其变得极为杂乱。TensorFlow 的 API 很冗长，Debug 也不相同，它大概有十几种树立深度网络的 API 模型。

截止到 2018 年 2 月，TensorFlow 依然名列前茅。开发者社区依然是是最大的。这是十分重要的要素。假如你想要用多个机器练习模型，或许把推理引擎布置到移动手机上，TensorFlow 是仅有的挑选。可是，假如其他渠道变得愈加专心端用户，咱们能够预见将会有更多从小项目转向中级项目。

跟着 TensorFlow 的开展，有许多 API 可供挑选来树立深度网络。最高层的 API 是供给隐式积分的评价器，而 TensorBoard 供给了功用评价。最低层的 API 十分冗长，在许多模块中都有。现在，它用封装器 API 兼并到了 tf.layers、tf.metrics 和 tf.losses 模块，然后更简略地树立深度网络层。

对想要更直观 API 的研讨者来说，还有 Keras、TFLearn、TF-Slim 等能够挑选，这些都可直接在 TensorFlow 上运用。我主张是挑选带有所需求的预练习模型与东西(来下载数据集)的结构，此外在学术界，用 Keras API 做原型规划恰当盛行。

(2) 搬迁学习

不要做重复的作业。许多深度学习软件渠道都有 VGG19、ResNet、Inception v3 这样的预练习模型。从头开端练习十分消耗时刻。就像 2014 年 VGG 论文中所说的，「VGG 模型是用 4 块英伟达 Titan Black GPU 练习的，依据架构练习单个网络需求 2-3 周的时刻。」

许多预练习模型可用于处理深度学习难题。例如，咱们运用预练习 VGG 模型提取图画特征，并将这些特征反应到 LSTM 模型来生成描绘。许多预练习模型都用 ImageNet 数据集练习，假如你的方针数据和 ImageNet 不同不大，咱们将固定大部分模型参数，只从头练习终究几个彻底衔接的层。不然，咱们就要运用练习数据集对整个网络进行端到端的重练习。可是在这两种情况下，因为模型现已过预练习，再练习所需的迭代将大大削减。因为练习时刻较短，即便练习数据集不行大，也能够防止过拟合。这种搬迁学习在各个学科都很有用，例如用预先练习好的英语模型练习汉语模型。

可是，这种搬迁学习仅适用于需求杂乱模型来提取特征的问题。在咱们的项目中，咱们的示例与 ImageNet 不同，咱们需求对模型进行端到端的从头练习。可是，当咱们只需求相对简略的潜在要素(色彩)时，来自 VGG19 的练习杂乱度太高。因而，咱们决议树立一个新的更简略的 CNN 特征提取模型。

(3) 本钱函数

并非一切的本钱函数都是等价的，它会影响模型的练习难度。有些本钱函数是恰当规范的，但有些问题域需求细心考虑。

分类问题：穿插熵，折页丢失函数(SVM)
回归：均方差错(MSE)
目标检测或切割：交并比(IoU)
战略优化：KL 散度
词嵌入：噪音比照估量(NCE)
词向量：余弦相似度

在理论剖析中看起来不错的本钱函数在实践中或许不太好用。例如，GAN 中鉴别器网络的本钱函数选用了更为有用也更经得起试验检测的办法，而不是理论剖析中看起来不错的办法。在一些问题域中，本钱函数能够是部分猜想加部分试验，也能够是几个本钱函数的组合。咱们的项目始于规范 GAN 本钱函数。此外，咱们还添加了运用 MSE 和其他正则化本钱的重建本钱。可是，怎么找到更好的本钱函数是咱们项目中没有处理的问题之一，咱们信任它将对色彩保真度发生严重影响。

(4) 衡量规范

杰出的衡量规范有助于更好地比较和调整模型。关于特别问题，请查看 Kaggle 渠道，该渠道组织了许多 DL 比赛，并供给了具体的衡量规范。不幸的是，在咱们的项目中，你很难界说一个精确的公式来衡量艺术烘托的精确性。

(5) 正则化

L1 正则化和 L2 正则化都很常见，但 L2 正则化在深度学习中更受欢迎。

L1 正则化有何长处?L1 正则化能够发生愈加稀少的参数，这有助于解开底层标明。因为每个非零参数会往本钱上添加赏罚，与 L2 正则化比较，L1 愈加喜爱零参数，即与 L2 正则化中的许多细小参数比较，它更喜爱零参数。L1 正则化使过滤器更洁净、更易于解说，因而是特征挑选的杰出挑选。L1 对异常值的脆弱性也较低，假如数据不太洁净，运转作用会更好。可是，L2 正则化依然更受欢迎，因为解或许更安稳。

(6) 梯度下降

一直亲近监督梯度是否消失或爆破，梯度下降问题有许多或许的原因，这些原因难以证明。不要跳至学习速率调整或使模型规划改动太快，小梯度或许只是由编程 Bug 引起，如输入数据未正确缩放或权重悉数初始化为零。

假如消除了其他或许的原因，则在梯度爆破时运用梯度切断(特别是关于 NLP)。越过衔接是缓解梯度下降问题的常用技能。在 ResNet 中，残差模块答应输入绕过当时层抵达下一层，这有用地添加了网络的深度。

(7) 缩放

缩放输入特征。咱们一般将特征缩放为以零为均值在特定规模内，如 [-1, 1]。特征的不恰当缩放是梯度爆破或下降的一个最常见的原因。有时咱们从练习数据中核算均值和方差，以使数据更挨近正态分布。假如缩放验证或测验数据，要再次运用练习数据的均值和方差。

(8) 批归一化和层归一化

每层激活函数之前节点输出的不平衡性是梯度问题的另一个首要来历，必要时需求对 CNN 运用批量归一化(BN)。假如恰当地规范化(缩放)输入数据，DN 将学习得更快更好。在 BN 中，咱们从每批练习数据中核算每个空间方位的均值和方差。例如，批巨细为 16，特征图具有 10 X10 的空间维度，咱们核算 100 个均匀值和 100 个方差(每个方位一个)。每个方位处的均值是来自 16 个样本的对应方位均匀值，咱们运用均值和方差来从头归一化每个方位的节点输出。BN 进步了精确度，一起缩短了练习时刻。

可是，BN 对 RNN 无效，咱们需求运用层归一化。在 RNN 中，来自 BN 的均值和方差不适合用来从头归一化 RNN 单元的输出，这或许是因为 RNN 和同享参数的循环特点。在层归一化中，输出由当时样本的层输出核算的均匀值和方差从头归一化。一个含有 100 个元素的层仅运用来自当时输入的一个均匀值方差来从头归一化该层。

(9) Dropout

能够将 Dropout 运用于层以归一化模型。2015 年批量归一化鼓起之后，dropout 热度下降。批量归一化运用均值和规范差从头缩放节点输出。这就像噪声相同，迫使层对输入中的变量进行更鲁棒的学习。因为批量归一化也有助于处理梯度下降问题，因而它逐步替代了 Dropout。

结合 Dropout 和 L2 正则化的长处是范畴特定的。一般，咱们能够在调优进程中测验 dropout，并搜集经历数据来证明其好处。

(10) 激活函数

在 DL 中，ReLU 是最常用的非线性激活函数。假如学习速率太高，则许多节点的激活值或许会处于零值。假如改动学习速率没有协助，咱们能够测验 leaky ReLU 或 PReLU。在 leaky ReLU 中，当 x < 0 时，它不输出 0，而是具有小的预界说向下斜率(如 0.01 或由超参数设置)。参数 ReLU(PReLU)往前推进一步。每个节点将具有可练习斜率。

(11) 拆分数据集

为了测验实践功用，咱们将数据分为三部分: 70 % 用于练习，20 % 用于验证，10 % 用于测验。保证样本在每个数据集和每批练习样本中被充沛打乱。在练习进程中，咱们运用练习数据集来构建具有不同超参数的模型。咱们运用验证数据集来运转这些模型，并挑选精确度最高的模型。可是稳妥起见，咱们运用 10 % 的测验数据进行终究的紊乱查看。假如你的测验成果与验证成果有很大差异，则应将数据打乱地愈加充沛或搜集更多的数据。

(12) 基线

设置基线有助于咱们比较模型和 Debug，例如咱们可运用 VGG19 模型作为分类问题的基线。或许，咱们能够先扩展一些已树立的简略模型来处理咱们的问题。这有助于咱们更好地了解问题，并树立功用基线进行比较。在咱们的项目中，咱们修正了已树立的 GAN 完成并从头规划了作为基线的生成网络。

(13) 查看点

咱们定时保存模型的输出和衡量以供比较。有时，咱们期望重现模型的成果或从头加载模型以进一步练习它。查看点答应咱们保存模型以便今后从头加载。可是，假如模型规划已更改，则无法加载一切旧查看点。咱们也运用 Git 符号来盯梢多个模型，并为特定查看点从头加载正确的模型。咱们的规划每个查看点占用 4gb 空间。在云环境中作业时，应相应装备满意的存储。咱们常常发动和停止 Amazon 云实例，因而咱们将一切文件存储在 Amazon EBS 中，以便于从头衔接。

(14) 自界说层

深度学习软件包中的内建层现已得到了更好的测验和优化。尽管如此，假如想自界说层，你需求：

用非随机数据对前向传达和反向传达代码进行模块测验;
将反向传达成果和朴素梯度查看进行比照;
在分母中添加小量的ϵ或用对数核算来防止 NaN 值。

(15) 归一化

深度学习的一大应战是可复现性。在调试进程中，假如初始模型参数在 session 间坚持改动，就很难进行调试。因而，咱们明确地对一切随机发生器初始化了种子。咱们在项目中对 python、NumPy 和 TensorFlow 都初始化了种子。在精调进程中，咱们咱们封闭了种子初始化，然后为每次运转生成不同的模型。为了复现模型的成果，咱们将对其进行 checkpoint，并在稍后从头加载它。

6. 优化器

Adam 优化器是深度学习中最盛行的优化器之一。它适用于许多种问题，包含带稀少或带噪声梯度的模型。其易于精调的特性使得它能快速取得很好的成果。实践上，默许的参数装备一般就能作业得很好。Adam 优化器结合了 AdaGrad 和 RMSProp 的长处。Adam 对每个参数运用相同的学习率，并跟着学习的进行而独登时习惯。Adam 是依据动量的算法，运用了梯度的前史信息。因而，梯度下降能够运转得愈加滑润，并按捺了因为大梯度和大学习率导致的参数振动问题。

Adam 有 4 个可装备参数：

学习率(默许 0.001);
β1：榜首个矩估量的指数衰减率(默许 0.9);
β2：第二个矩估量的指数衰减率(默许 0.999)，这个值在稀少梯度问题中应该被设置成挨近 1;
ϵ(默许值 1e^-8)是一个用于防止除以零运算的小值。

β(动量)经过累积梯度的前史信息来滑润化梯度下降。一般关于前期阶段，默许设置现已能作业得很好。不然，最或许需求改动的参数应该是学习率。

7. 总结

以下是对深度学习项目的首要进程的简略总结：

• Define task (Object detection, Colorization of line arts)• Collect dataset (MS Coco, Public web sites) ◦ Search for academic datasets and baselines ◦ Build your own (From Twitter, News, Website,…)• Define the metrics ◦ Search for established metrics• Clean and preprocess the data ◦ Select features and transform data ◦ One-hot vector, bag of words, spectrogram etc... ◦ Bucketize, logarithm scale, spectrogram ◦ Remove noise or outliers ◦ Remove invalid and duplicate data ◦ Scale or whiten data• Split datasets for training, validation and testing ◦ Visualize data ◦ Validate dataset• Establish a baseline ◦ Compute metrics for the baseline ◦ Analyze errors for area of improvements• Select network structure ◦ CNN, LSTM…• Implement a deep network ◦ Code debugging and validation ◦ Parameter initialization ◦ Compute loss and metrics ◦ Choose hyper-parameters ◦ Visualize, validate and summarize result ◦ Analyze errors ◦ Add layers and nodes ◦ Optimization• Hyper-parameters fine tunings• Try our model variants

第四部分：可视化深度神经网络模型和方针

在为深度神经网络排除毛病方面，人们总是太快、太早地下定论了。在了解怎么排除毛病前，咱们要先考虑要寻觅什么，再花费数小时时刻追寻毛病。这部分咱们将评论怎么可视化深度学习模型和功用方针。

1. TensorBoard

在每一步追寻每个动作、查看成果十分重要。在预置包如 TensorBoard 的协助下，可视化模型和功用方针变得简略，且奖赏几乎是一起的。

2. 数据可视化(输入、输出)

验证模型的输入和输出。在向模型馈送数据之前，先保存一些练习和验证样本用于视觉验证。撤销数据预处理。将像素值从头调整回 [0, 255]。查看多个批次，以确认咱们没有重复相同批次的数据。左下图画是一些练习样本，右下方验证样本。

有时，验证输入数据的直方图很棒。完美情况下，它应该是以 0 为中心的，区间在 -1 和 1 之间。假如特征在不同的标准中，那么梯度要么下降要么爆破(依据学习率而定)。

定时保存对应模型的输出，用于验证和差错剖析。例如，验证输出中的色彩稍浅。

3. 方针(丢失 & 精确率)

除了定时记载丢失和精确率之外，咱们还能够记载和制作它们，以剖析其长时刻趋势。下图是 TensorBoard 上展现的精确率和穿插熵丢失。

制作丢失图能够协助咱们调整学习率。丢失的恣意长时刻上升标明学习率太高了。假如学习率较低，则学习的速度变慢。

这里是另一个学习率太高的实在样本。咱们能看到丢失函数忽然上升(或许由梯度忽然上升引起)。

咱们运用精确率图调整正则化因子。假如验证和练习精确率之间存在很大距离，则该模型呈现过拟合。为了缓解过拟合，咱们需求进步正则化因子。

4. 小结

权重 & 偏置：咱们严密监控权重和偏置。下图是层 1 在不同练习迭代中的权重和偏置。呈现大型(正/负)权重是不正常的。正态分布的权重标明练习进程很顺畅(可是也不必定)。

激活：为了梯度下降以完成最佳功用，激活函数之前的节点输出应该呈正态分布。假如不是，那么咱们或许向卷积层运用批归一化，或许向 RNN 层运用层归一化。咱们还监控激活函数之后无效节点(0 激活)的数量。

梯度：咱们监控每一层的梯度，以确认一个最严厉的深度学习问题：梯度消失或爆破。假如梯度从最右层向最左层快速下降，那么就呈现了梯度消失问题。

这或许不是很常见：咱们可视化了 CNN 滤波器。它识别出模型提取的特征的类型。如下图所示，前两个卷积层在检测鸿沟和色彩。

关于 CNN，咱们能够看到特征图在学习什么。下图捕捉了特定图中具有最高激活函数的 9 张图(右侧)。它还运用解卷积网络从特征图中重建空间图画(左图)。

Visualizing and Understanding Convolutional Networks, Matthew D Zeiler et al.

这种图画重建很少进行。可是在生成模型中，咱们常常改动一个潜在因子、坚持其他不变。它验证该模型是否在智能地学习。

Dynamic Routing Between Capsules, Sara Sabour, Nicholas Frosst, Geoffrey E Hinton

第五部分：调试深度学习网络

1. 深度学习的问题处理进程

在前期开发中，咱们会一起遇到多个问题。就像前面说到的，深度学习练习由数百万次迭代组成。找到 bug 十分难，且简略溃散。从简略开端，逐步做一些改动。正则化这样的模型优化能够在代码 degug 后做。以功用优先的办法查看模型：

把正则化因子设置为 0;
不要其他正则化(包含 dropouts);
运用默许设置的 Adam 优化器;
运用 ReLU;
不要数据增强;
更少的深度网络层;
扩展输入数据，但不要非必要预处理;
不要在长时刻练习迭代或许大 batch size 上浪费时刻。

用小量的练习数据使模型过拟合是 debug 深度学习的最好办法。假如在数千次迭代内，丢失值不下降，进一步 debgug 代码。精确率逾越瞎猜的概念，你就取得了榜首个里程碑。然后对模型做后续的修正：添加网络层和自界说;开端用完好练习数据做练习;经过监控练习和验证数据集之间的精确率不同，来添加正则化操控过拟合。

假如卡住了，去掉一切东西，从更小的问题开端上手。

2. 初始化超参数

许多超参数与模型优化更为相关。关掉超参数或许运用缺省值。运用 Adam 优化器，它速度快、高效且缺省学习率也很好。前期的问题首要来自于 bug，而不是模型规划和精调问题。在做微调之前，先过一遍下面的查看列表。这些问题更常见，也简略查看。假如丢失值还没下降，就调整学习率。假如丢失值降的太慢，学习率添加 10。假如丢失值上升或许梯度爆破，学习率下降 10。重复这个进程，直到丢失值逐步下降。典型的学习率在 1 到 1e-7 之间。

3. 查看列表

数据：

可视化并查看输入数据(在数据预处理之后，馈送到模型之前);
查看输入标签的精确率(在数据扰动之后);
不要一遍又一遍的馈送同一 batch 的数据;
恰当的缩放输入数据(一般可缩放到区间 (-1, 1) 之间，且具有零均值);
查看输出的规模(如，在区间 (-1, 1) 之间);
总是运用练习集的均匀值/方差来从头调理验证/测验集;
模型一切的输入数据有相同的维度;
获取数据集的全体质量(是否有太多异常值或许坏样本)。

模型：

模型参数精确的初始化，权重不要悉数设定为 0;
对激活或许梯度消失/爆破的网络层做 debug(从最右边到最左面);
对权严重部分是 0 或许权重太大的网络层做 debug;
查看并测验丢失函数;
对预练习模型，输入数据规模要匹配模型中运用的规模;
推理和测验中的 Dropout 应该总是关掉。

4. 权重初始化

把权重悉数初始化到 0 是最常见的过错，深度网络也学不到任何东西。权重要依照高斯分布做初始化：

5. 缩放与归一化

人们对缩放与归一化都有很好地了解，但这仍旧是最被小看的问题之一。假如输入特征和节点输出都被归一化，就能更简略地练习模型。假如做的不精确，丢失值就不会跟着学习率下降。咱们应该监控输入特征和每层节点输出的的直方图。要恰当的缩放输入。而对节点的输出，完美的形状是零均值，且值不太大(正或负)。假如不是且遇到该层有梯度问题，则在卷积层做批归一化，在 RNN 单元上做层归一化。