谷歌大脑去年提出了自动数据增强方法(AutoAugment),确实对图像分类和目标检测等任务带来了益处,现在又提出了一种数据增强的方法——RandAugment。

本文经AI新媒体量子位(大众号ID:QbitAI)授权转载,转载请联络出处。

你的数据还不行强。

玩深度学习的人都知道,AI算法大部分是数据驱动。数据的质量必定程度上决议了模型的好坏。

这就有了深度学习天然生成的一个短板:数据不行多、不行好。

而数据增强便是处理这一问题的有用办法。

谷歌大脑上一年提出了主动数据增强办法(AutoAugment),的确对图画分类和方针检测等使命带来了好处。

但缺陷也是显着的:

1、大规模选用这样的办法会添加练习复杂性、加大计算成本;

2、无法依据模型或数据集巨细调整正则化强度。

于是乎,谷歌大脑团队又提出了一种数据增强的办法——RandAugment。

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第1张

这个办法有多好?

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第2张

谷歌大脑高档研讨科学家Barret Zoph表明:

RandAugment是一种新的数据增强办法,比AutoAugment简略又好用。

首要思维是随机挑选改换,调整它们的巨细。

最终的试验成果表明:

1、在ImageNet数据集上,完成了85.0%的准确率,比曾经的水平进步了0.6%,比基线增强了1.0%。

2、在方针检测方面,RandAugment能比基线增强办法进步1.0-1.3%。

值得一提的是,这项研讨的通讯作者是谷歌AutoML幕后英雄的Quoc Viet Le大神。

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第3张

这么好的技能当然开源了代码:

https://github.com/tensorflow/tpu/blob/master/models/official/efficientnet/autoaugment.py

RandAugment是怎样做到的?

正如方才提到的,独自查找是问题的要害点。

所以研讨人员的方针便是消除数据增强进程中对独自查找的需求。

再考虑到以往数据增强办法都包含30多个参数,团队也将重视点搬运到了怎么大幅削减数据增强的参数空间。

为了削减参数空间的一起坚持数据(图画)的多样性,研讨人员用无参数进程代替了学习的战略和概率。

这些战略和概率适用于每次改换(transformation),该进程一直挑选均匀概率为1/k的改换。

也便是说,给定练习图画的N个改换,RandAugment就能表明KN个潜在战略。

最终,需求考虑到的一组参数是每个增强失真(augmentation distortion)的巨细。

研讨人员选用线性标度来表明每个转化的强度。简略来说,便是每次改换都在0到10的整数规模内,其间,10表明给定改换的最大规模。

为了进一步缩小参数空间,团队观察到每个转化的学习起伏(learned magnitude)在练习期间遵从类似的表:

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第4张

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第5张

并假定一个单一的大局失真M(global distortion M)或许就足以对一切转化进行参数化。

这样,生成的算法便包含两个参数N和M,还能够用两行Python代码简略表明:

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第6张

由于这两个参数都是可人为解说的,所以N和M的值越大,正则化强度就越大。

能够运用规范办法高效地进行超参数优化,可是考虑到极小的查找空间,研讨人员发现朴素网格查找(naive grid search)对错常有用的。

试验成果

在试验部分,首要环绕图画分类和方针检测打开。

研讨人员较为重视的数据集包含:CIFAR-10、CIFAR-100、SVHN、ImageNet以及COCO。

这样就能够与之前的作业做比较,证明RandAugment在数据增强方面的优势。

数据增强的一个条件是构建一个小的署理使命(proxy task),这个使命能够反映一个较大的使命。

研讨人员挑战了这样一个假定:

用小型proxy task来描绘问题适合于学习数据的增强。

特别地,从两个独立的维度来讨论这个问题,这两个维度通常被限制为完成小型proxy task:模型巨细和数据集巨细。

为了探求这一假定,研讨人员体系地测量了数据增强战略对CIFAR-10的影响。成果如下图所示:

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第7张

其间:

图(a)表明Wide-ResNet-28-2,Wide-ResNet-28-7和Wide-ResNet-28-10在各种失真起伏(distortion magnitude)下的精度。

图(b)表明在7种Wide-ResNet-28架构中,跟着变宽参数(k)的改变,所发生的最佳失真起伏。

图(c)表明Wide-ResNet-28-10的三种练习集巨细(1K,4K和10K)在各种失真起伏上的准确性。

图(d)在8个练习集巨细上的最佳失真起伏。

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第8张

其间,baseline是默许的数据增强办法。

PBA:Population Based Augmentation;
Fast AA:Fast AutoAugment;
AA:AutoAugment;
RA:RandAugment。

但值得注意点的是,改善CIFAR-10和SVHN模型的数据增强办法并不总是适用于ImageNet等大规模使命。

同样地,AutoAugment在ImageNet上的功能进步也不如其他使命。

下表比较了在ImageNet上RandAugment和其他增强办法的功能。

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第9张

在最小的模型(ResNet-50)上,RandAugment的功能与AutoAugment和Fast AutoAugment类似,但在较大的模型上,RandAugment的功能明显优于其他办法,比基线进步了1.3%。

为了进一步测验这种办法的通用性,研讨人接下来在COCO数据集进步行了大规模方针检测的相关使命。

谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)  开源 技术 趋势 第10张

COCO方针检测使命的均匀精度均值(Mean average precision,mAP)。数值越高,成果越好。

下一步作业

咱们知道数据增强能够进步猜测功能,例如图画切割,3-D感知,语音辨认或音频辨认。

研讨人员表明,未来的作业将研讨这种办法将怎么应用于其他机器学习范畴。

特别是期望更好地了解数据集或使命是否/何时或许需求独自的查找阶段才干取得最佳功能。

最终,研讨人员还抛出了一个悬而未决的问题:

怎么针对给定的使命定制一组转化,进一步进步给定模型的猜测功能。

对此,你又什么主意?

传送门
论文地址:
https://arxiv.org/pdf/1909.13719.pdf

GitHub地址:
https://github.com/tensorflow/tpu/blob/master/models/official/efficientnet/autoaugment.py

转载请说明出处
知优网 » 谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%(imagenet准确率排名)

发表评论

您需要后才能发表评论