人工神经网络最重要的未解难题之一,是如何像大脑一样有效地进行无监督学习。

深度学习之父Hinton:下一代神经网络 SIGIR是一个展现信息检索领域中各种新技术和新作用的重要世界论坛,若非疫情影响,本年本定于我国西安市举办。7月25日-7月30日,第43届SIGIR2020在线上举办。 7月27日,2018年图灵奖得主Geoffrey Hinton带来了主题为《The Next Generation of Neural Networks》的讲座。讲座由约克大学信息技术学院正教授Jimmy Huang掌管,ACM出色科学家、 吉林大学人工智能学院常毅教授担任嘉宾。 在讲座中,Hinton指出:人工神经网络最重要的未解难题之一,是怎样像大脑相同有用地进行无监督学习。 其时有两种首要的无监督学习办法: 榜首种办法,以BERT和变分自编码器为例,运用了深度神经网络来重建其输入。这种办法关于图画来说是有问题的,因为网络的最深层需求对图画的精密细节进行编码。 第二种办法是Becker和Hinton在1992年提出的:当给定相同图画的两个不同片段作为输入时,练习深度神经网络的两个副本以发生具有高互信息的输出向量。规划此办法的意图是使表征办法不受输入无关细节的捆绑。 Becker和Hinton运用的优化互信息的办法存在缺点(出于一个奇妙的原因,讲座中会解说),因而Pacannaro和Hinton将其替换为判别性方针函数,在该方针函数中,一个向量表征有必要从许多代替计划中挑选相应的向量表征。 表征的比照学习(contrastive learning of representations)被证明十分有用,可是它存在一个首要缺点:要学习具有N位互信息的成对的表征向量,咱们需求将正确的对应向量和大约2^N个过错的代替计划进行比照。Hinton将描绘处理这种局限性的新颖有用办法,而且标明这将导致在皮质中完结感知学习的简略办法。 Geoffrey Hinton现在是多伦多大学的核算机科学系荣誉退休教授,Google的副总裁兼工程研讨员,以及Vector Institute的首席科学参谋。他最早运用反向传达学习单词嵌入,对神经网络研讨的其他奉献包括玻尔兹曼机、散布式标明、时延神经网络、专家混合、变分学习和深度学习。2018年,Geoffrey Hinton因在深度学习方面的奉献与Yoshua Bengio、Yann LeCun一同被颁发了图灵奖。 以下是讲演全文,AI科技议论进行了不改动乐意的收拾。 深度学习之父Hinton:下一代神经网络 1 无监督学习的前史 1、自编码器 在这次讲演中,我将评论神经网络的未来开展方向。不过在这之前,我会先谈谈神经网络的开展前史,特别是无监督学习。 在机器学习中,有三种不同类型的学习办法:首要是监督学习,即给定输入向量学习猜想输出。然后是强化学习,经过学习挑选动作以获得最大奖赏。最终是无监督学习,其意图是学习输入的内部表征,可是从数学上界说什么是好的表征办法很困难。 首要解说咱们需求无监督学习的原因。人类具有10^14个突触,但只能活10^9秒。这意味着假如要学习大多数突触,显式标签或奖赏或许无法供给满足的信息,因为咱们有必要每秒学习10^5个突触。 有人对立人类需求学习一切突触的观念。一种说法是,或许大多数突触都不会被学习,而且进化的功率很低,进化算法的功率就比反向传达算法低得多。突触或许是高度冗余的。 可是,我以为大脑糟蹋容量的或许性很小。人类的学习模型十分巨大,却不需求许多的数据,这与惯例的核算办法十分不同。对人类而言来说,经历是贵重的,而突触是廉价的。 因而,咱们需求研讨不运用许多经历和具有许多参数的学习算法。用于无监督学习的方针函数,即最大似然,便是个很显着的比方。 优化最大似然意味着调整生成模型的参数,以最大程度地进步模型生成观测数据的概率。例如,将数据散布拟合为高斯混合散布。 别的一个比方是自编码器。自编码器企图找到一种经济的表征办法,来重建数据。 我将在本讲演的后半部分以空间或时刻共同性的视点来议论这个论题,其思维是提取在空间或时刻上共同的特色,这和最大似然十分不同。 深度学习之父Hinton:下一代神经网络 自编码器是一种运用监督学习算法来完结无监督学习的办法。咱们将数据输入网络,网络输出重建的数据,网络学习的意图是使重建数据与原始数据相同。网络将数据转换为编码向量,咱们一般期望编码向量的维度很小,或能高效地表征数据。解码器以编码向量为输入测验重建数据,因而解码器是条件生成模型。 在大约20年的时刻里,人们一向以为练习深度自编码器十分困难。自编码器的主意从1980年代中期反向传达开端盛行就有了,可是深度学习无法运用到自编码器中。原因是咱们运用了过错的激活函数,其时运用的是Sigmoid或Tanh,而不是ReLU,而后者更简略在深度学习中练习。此外,咱们的初始化办法也很糟糕。在初始化权重时需求缩放权重,然后反向传达的梯度不会爆破或消失。最终,其时的核算机速度也很慢。 2、堆叠浅层自编码器 深度学习之父Hinton:下一代神经网络 在2006年,Salakhutdinov和我提出了一种练习深度自编码器的新办法,即堆叠多个浅层自编码器。 首要练习一个浅层自编码器,其承受输入的数据。它的躲藏层有特征检测器,而且测验学习能够重建数据的特征检测器。然后,将特征检测器的激活值视为数据,重复以上操作,你能够依据需求确认层数。因而,在不运用任何标签的情况下,咱们能够预练习多个层的特征向量,称之为无监督预练习。 每个新的自编码器都将已学习的特征检测器的激活值视为其数据,而且学习进一步的编码。该算法的风趣之处在于,它成功地运用了深度学习来学习自编码器。 关于浅层自编码器(例如受限玻尔兹曼机),数学标明每逢新的浅层自编码器添加到堆叠的网络中,模型生成数据的对数概率将获得新的变分界(variational bound),而且该变分界比从前的变分界更好。 层来说有用的特征,为了处理这个问题,咱们能够练习深度端到端自编码器。有了更快的核算机和更好的激活函数,深度自编码器的作用变得很好。 3、变分自编码器 深度学习之父Hinton:下一代神经网络 在2013年,Welling和Kingma提出了变分自编码器,其思维是,编码器收集数据并将其转换为实数值编码向量,解码器运用实数值编码向量重建数据。 编码器的意图有两个:榜首,它期望找到一种编码,能够在先验散布下最大化该编码的概率。在实数值编码空间中,存在先验散布,一般为高斯散布,编码器测验查找挨近该高斯均值的编码。第二,它也在寻觅能够重建数据的编码。 解码器获取编码并测验精确地重建数据,运用的是变分近似办法。经过运用奇妙的数学,Welling和Kingma能够获得练习变分主动编码器所需的一切导数,然后既能最大化编码处于高斯先验散布的概率,又能运用变分后验最大化数据的近似概率。以下不会再议论变分自编码器,但它现在是无监督学习的最佳办法之一。 4、BERT 接下来评论BERT。BERT是一种深度自编码器,经过练习能够弥补语句中遗失的单词。BERT实际上与信息检索十分相关,因为它能够提取十分好的单词表征。这关于了解文档十分有用。BERT有许多个层,而且在每一层中,都有每个输入单词的嵌入向量。榜首个躲藏层中有单词的向量表征,第二个躲藏层中有相同单词的更好的向量表征。 跟着深化网络,给定单词的表征将变得越来越好。实际上,L + 1层中的某个单词的表征,是经过比较L层中该单词的嵌入与其它单词的嵌入生成的。这种比较是经过称为Transformer的注意力机制完结的。这种嵌入是很好的单词表征,可用于各种天然言语使命。 深度学习之父Hinton:下一代神经网络 假如用规范的一维卷积神经网络来标明单词字符串,咱们将经过这些向量来标明语句中的单词。经过组合信息,激活单词的权重矩阵,咱们能够获得下一层向量来表征单词。因而,和之前的办法类似,只需检查前一级中一切附近单词的表征,即可将这些表征组合成下一层中更好的单词表征,但这儿运用了注意力机制。 深度学习之父Hinton:下一代神经网络 BERT的机制实际上看起来像信息检索。每个单词都经过学习的权重矩阵生成查询向量、键向量和值向量。然后,关于L层的每个单词,咱们将获取其查询向量,并将其与一切其它单词的键向量进行比较。假如查询向量和键向量之间能够很好地匹配时,也便是说,当查询向量和键向量的标量积很大时,附近方位的值向量影响下一层的单词表征。 例如,假定我的姓名是June。我将生成一个查询向量,该查询向量能够很好地匹配月份,也能够很好地匹配女人姓名。咱们将在语句的其余部分中挑选相关的词,并运用这些相关的词来修正June的表征。假如语句中还有其他几个女人的姓名,则June的表征将变得更挨近女人人名的表征,假如语句中呈现了月份相关的单词,June的表征将变得更挨近“六月”的表征。也便是说,它们将依据上下文进行优化,所以这很像信息检索,不过一切查询、值和键都是学习得到的。 因而,咱们能够运用这种神经网络进行言语建模。首要运用Transformers预练习单词片段嵌入。假如选用语句或更长的文本片段,则需求不计其数个片段,将它们输入Transformers的多个层,以学习一切的键、值和查询。 因而,单词表征会在输出之前得到完善,能够很好地运用上下文信息。然后,咱们在另一个神经网络中运用这些单词片段的表征,神经网络能够从从前的单词片段中猜想下一个单词片段,因而这是一个主动回归模型。可是,它考虑的不是那些单词片段,而是BERT生成的单词片段的表征。 它的作用比规矩模型更好。经过给它一个初始的单词序列,然后让它猜想下一个片段的概率散布。这样一来,咱们就能够生成长长的单词串,直到获得完好的故事停止,作用令人惊奇。 深度学习之父Hinton:下一代神经网络 BERT需求用数十亿个文字数据来练习,然后咱们运用其发生的嵌入,练习具有1,750亿个参数的言语模型,耗时超越一千petaflop天。一旦完结练习,咱们就能够生成新闻文章,如上图所示。这是GPT-3的比方,风趣的是,大多数人无法确认这篇新闻文章是由BERT编撰的,它经过了图灵测验。 现在,咱们回到有关怎样进行监督学习的根底思维。变分自编码器BERT比堆叠自编码器的作用更好,这是因为端到端学习能够保证前面层中的躲藏单元学习提取后边层所需的特征,这是反向传达所拿手的作业。 2 无监督学习的未来 1、自上而下与自下而上 在曩昔的几年中,我一向十分巴望找到一种新的完结监督学习和深层网络的办法,这种办法不需求多层反向传达,因为我不相信大脑的作业机制是这样的。 接下来,咱们大部分时刻都将评论新的修正办法,它怎样不起作用以及怎样改善以使其起作用。处理办法是学习每个层的特征,然后能够重建前一层的内容。而且,它们关于后一层也能很简略进行重构。这意味着咱们将有必要一起学习一切的层。 咱们将测验学习满足好的特征并重建前面的层,这是堆叠自编码器的方针函数,但也很简略对后边的层进行重建。也便是说,它们与后边层猜想的内容相符。 这儿有一个十分令人风趣但饶舌的解说,即后边的层将进行自上而下的猜想,自上而下的猜想将监督自下而上的衔接的学习,自下而上的衔接将发生表征,该表征将作为自上而下的猜想的方针,自上而下的猜想实际上也是自下而上学习的方针,自下而上和自上而下的学习进程是相互监督的。 也便是说,好的特征能够部分地、自下而上地提取,一起也能够从更大的上下文中自上而下地猜想。 咱们来展现一个运用上下文协议的比方。考虑一个语句,“she scromed him with the frying pan”,期望你曾经从未听过scrom这个单词。咱们置疑它是动词,根据它在语句中的方位以及单词结尾的“ed”。 咱们不知道它开端的意义,可是在刚看到这句话时,大多数人对其意义现已有了一个很好的了解,以为这大致标明“她用平底锅打了他的头”。 人类不需求不计其数的比方也能从一句话中很好地了解一个词的意思。这便是自上而下猜想的,魅力地点。 在视觉识别上也类似,大局的布景协助你自上而下地猜想应该在图画的部分看到什么,例如在草地布景中猜想是非斑块皮肤的四脚兽是奶牛。 2、以新办法练习堆叠浅层的自编码器,会发生什么? 咱们的方针是在自下而上和自上而下对某个特征的猜想之间获得共同。这很简略经过缩小一切躲藏激活向量来完结。这被称为所谓的“塌缩问题”(collapse problem)。不过,咱们能够经过运用更好的协议界说来防止这个问题:两个变量在每个练习样例中的值是否共同,以及它们在不同练习样例中是否遵从相同的改动。 咱们先评论一种彻底不同的无监督学习办法,之后我再回到这种办法。 之前,我和我的学生想出了一个办法,用一个更好的界说来解说两者的共同性。与其说它们应该持平,不如说它们应该是类似的,即它们在不同的练习事例上有什么样的改动趋势。 所以在一个特定的练习事例中,咱们期望神经网络的一部分中的自下而上的猜想与自上而下的猜想相共同。 不要测验解说输入的每一个细节,只需重视于提取在空间或时刻上共同的特色。和主动编码器不同,这儿答应咱们疏忽噪声。 3、提取空间共同性特色 Becker 和我在1992年引入了一种提取空间共同特色的办法:最大化两个输入非堆叠图画块的表征的互信息。 假如a 和b是标量,则经过最小化深度学习之父Hinton:下一代神经网络 来最大化互信息。 假如a和b是向量,则经过最小化 深度学习之父Hinton:下一代神经网络来最大化互信息。 相关论文:Maximizing the Mutual Infomation between two Gaussian distributed variables(Becker 和Hinton,1992) 接下来看一个提取空间共同性特色的简略样例: 深度学习之父Hinton:下一代神经网络 首要用随机点填充一张图片使它没有显着的结构。然后再取另一张图片,这张图片是榜首张图片经过水平移动后的版别。所以图画对中仅有的结构便是它们之间的相对平移。很久曾经咱们用的是十分小的电脑。所以咱们只从左面的图画中取了一个一维的条带,从右边的图画中取了一个一维的条带。 咱们在左图上散落了一些随机点。然后咱们看了右图,这是左图的翻译版。你能够看到,假如你看两个相邻的图画块,那么它们的视差是相同的。左右条带之间的偏移相同。所以,假如你练习一个神经网络,看看左手边的patch块来提取一个特色, 练习一个神经网络的副原本调查右手边的patch块,招引一个特色。能够看出仅有的共同性特色分离了,这便是咱们想要提取的,它也的确起到了作用。 4、比照学习 可是,Becker和我提出的的最大化互信息办法也存在着很大的问题:一旦开端优化非线性映射,变量是高斯散布的假定就会形成可怕的问题。而假如只学习线性映射,或许在优化一个线性函数,这个假定并没有引起太大的问题。可是一旦优化了一个非线性函数,它就会导致糟糕的事发生。 这些问题简略经过一种嵌入的办法来可视化,首要是部分线性嵌入 ,它具有以下特色: 部分线性嵌入能够在二维图中展现出高维数据点 部分线性嵌入会使高度类似的数据点变得相互挨近 部分线性嵌入经过对一切数据点的二维标明施加大局协方差来防止整个映射溃散: 协方差(映射点)=单位矩阵 可是部分线性嵌入会导致可怕的作业发生,比方维度坍缩。 如下图所示,能够看到MNIST数据的部分线性嵌入发生的特征,色彩标明分类。 深度学习之父Hinton:下一代神经网络 能够发现它没有对数字进行很天然的分类:它们简直是一维的,这些数字长串简直相互正交。 而下图则是MNIST数据的t-SNE嵌入,色彩对应于不同的数字,能够看到它找到了十分好的簇。 深度学习之父Hinton:下一代神经网络 那么t-SNE是怎样做到防止维度坍缩的呢?这很大程度上就要归功于它的方针丢失函数: 深度学习之父Hinton:下一代神经网络 在这个函数中引入了比照丢失来建模相关数据,在上面式子的第二项中,关于一切的方针,k都要远离Mj,而不只是只是一个方针需求远离。 这种比照丢失的思维是从线性嵌入引入的,而当只要一个“similar-to”联系时,线性联系及其价值函数能够转化为随机相邻嵌入层。这个作业是来战胜线性潜在部分线性嵌入的问题。线性联系嵌入的办法只要一种联系。只要一个矩阵是单位矩阵。但咱们要做的便是让一个向量和另一个向量类似。 运用线性相关嵌入方针函数使纬度下降: 核算一个包括每个高维数据点大概率表,数据点i将挑选另一个数据点j作为它的近邻。这个概率将会等比例放缩为 深度学习之父Hinton:下一代神经网络 。 学习把每个高维数据点Xi转换为一个二维映射点yi。 因而,当我运用相同的函数,能够模拟在高维数据中发现的类似性。 深度学习之父Hinton:下一代神经网络 在高维空间中,或许有一个数据点i,咱们要核算它挑选每个或许的相邻点的概率。 然后咱们把一切的数据都丢掉。每一个点挑选其它点作为其街坊的概率包括了咱们用于寻觅低维图的点的一切信息。 一旦咱们获得了概率p_j|i,咱们不需求在高维空间做任何核算。输入能够是数据点对之间的“不类似性”,而不是单个数据点在高维空间的方位。 深度学习之父Hinton:下一代神经网络 咱们的价值函数如上图所示。关于p_ij很大而q_ij很小的点,本钱很高。关于q_ij很大而p_ij很小的点,本钱很低,因为咱们在Q_i散布上耗费了一些概率质量(probability mass)。 深度学习之父Hinton:下一代神经网络 上图是随机相邻嵌入(SNE)办法生成的成果,根据数字1-4图画之间的欧几里德间隔,它能够发生相当好的嵌入。 t-SNE是SNE的一个变体,咱们把在二维空间中确认挑选一个附近点的相对概率的高斯散布替换为student-t散布。这为二维平面发明了更多的空间,补偿了低维空间的缺点,而且使得不同的集群之间存在空隙。 为什么协方差束缚关于优化非线性或非参数化映射作用欠安?因为线性映射无法改动散布的熵和方差之间的比率。所以假如咱们想优化一个线性映射来最大化散布的熵,咱们能够简略地最大化方差。但这关于非线性映射来说不可行。一个非线性映射能够生成一个散布,它有两个相距很远但十分严密的簇。 为什么非线性版别的典型相关剖析或线性判别式剖析不可行?因为这些办法最大化了方差,以获得两个变量之间的高互信息,或许一个变量和一个类之间的高互信息。一个散布的方差能够作为代替它的熵,但仅当被优化的映射是线性的才建立。当然,你也能够经过运用一个固定的到数据的非线性映射,然后优化一般的线性映射。 运用比照丢失函数来提取空间或时刻共同的向量表征。在2004年,Ruslan Salakhutdinov和我将比照丢失用于我和Becker的作业。可是因为算力不行所以没宣布任何东西。Li和Vinyals在2018年从头提出了比照丢失的idea,并将其用于发现时刻共同的表征,获得了不错的成果。现在,运用比照丢失进行无监督学习现已很盛行了。 3 SimCLR:一种无监督比照学习的新办法 最终讲一种新办法SimCLR,这是Ting Chen开发的一种新的运用比照丢失来提取表征的办法,当展现同一张图画的不同片段时,表征获得共同,可是该办法需求许多算力。 深度学习之父Hinton:下一代神经网络 1、SimCLR怎样作业? 很简略,取图画x,然后对图画进行两次不同的裁剪。运用深度网络得到一个特征标明,到现在停止一切进程都是无监督的。h_i和h_j代表不同的向量。嵌入向量企图在比照中保持共同。也便是说,来自同一张图画的许多片段生成的嵌入向量要获得共同。 Ting发现他能够得到很好的表征,先用这种办法进行无监督学习,然后在表征的根底上练习线性分类器。 2、SimCLR功能怎样? 下图是各种无监督模型在ImageNet Top-1精确率上的比照,能够看到,经过无监督学习在线性层上做表征提取,这种办法既简略又高效,完结的精确率超越其它模型。 深度学习之父Hinton:下一代神经网络 在ImageNet数据集上,SimCLR能得到与2012年AlexNet相同的功能,可是只是运用了1%的标签,这归功于两点: 1、首要在具有残差衔接的深度卷积网络上做无监督表征学习。 2、之后在具有标签的少数数据集上微调。

深度学习之父Hinton:下一代神经网络(神经网络之父Hinton)  神经网络 数据 图形 第1张

转载请说明出处
知优网 » 深度学习之父Hinton:下一代神经网络(神经网络之父Hinton)

发表评论

您需要后才能发表评论