麻省理工、IBM合推新式数据集，“为计算机视觉黄金时代做准备”-人工智能-知优网

近日，麻省理工学院和 IBM 研究人员组成的团队，共同创建了一个与之不同的图像识别数据集 ObjectNet，难倒了世界上最好的计算机视觉模型。

在人工智能范畴中的图画分类问题上，最常用来练习和测验的数据集是 ImageNet，它也是全球超大的“CV 习题库”。近来，麻省理工学院和 IBM 研讨人员组成的团队，一起创立了一个与之不同的图画辨认数据集 ObjectNet，难倒了国际上最好的计算机视觉模型。

需求提示的是，这儿的最好或最强指的不是某一个模型，而是一类高功能的视觉模型。

在 ImageNet 测验中完成准确率高达 97% 的计算机视觉模型，在 ObjectNet 数据集上检测的准确率下降到了 50%-55%。测验效果如此“惨烈”，首要原因在于，现在简直一切的视觉模型，在类似于物体旋转、布景改换、视角切换等杂乱情境下，辨认进程都缺少安稳性。

麻省理工学院计算机科学与人工智能试验室 (CSAIL) 和大脑、心智与机器中心 (CBMM) 的研讨科学家 Andrei Barbu，是该研讨的通讯作者，也是该项意图主持人之一。他在承受 DeepTech 专访时表明，“咱们需求一个数据集能够具有典型含义地表明你在实践日子中看到的东西，没有这个东西，谁还有决心做计算机视觉？咱们怎样能说计算机视觉现已为黄金时代和关乎安全的要害运用做好了预备?”

Andrei Barbu 还表明，ObjectNet 能够向全球研讨者共享，“只需联络咱们，咱们将发送给你。”（网站：https://objectnet.dev/）

图 | ImageNet（来历：ImageNet）

人工智能运用由神经元层组成的神经网络在许多的原始数据中寻觅规则。比方，在看过成百上千张椅子的相片之后，它学会了椅子的形状。

斯坦福大学每年都会举办一个竞赛，约请谷歌、微软、百度等 IT 企业运用 ImageNet 测验他们的体系运转状况。每年一度的竞赛也触动着各大巨子公司的心弦。

ImageNet 由国际上顶尖的计算机视觉专家李飞飞参加树立，她在一次讲演中说到，要让严寒的机器读懂相片背面的故事，就需求让机器像婴儿相同看过满足多的“练习图画”。

ImageNet 从 Flickr 和其他交际媒体网站上下载了挨近 10 亿张图片，2009 年，ImageNet 项目诞生了，含有近 1500 万张相片的数据库，涵盖了 22000 种物品。

计算机视觉模型现已学会了精确地辨认相片中的物体，以至于有些模型在某些数据集上体现得比人类还要好。

图 | ImageNet 创立者之一李飞飞（来历：Wikipedia）

可是，当这些模型真实进入到日子中时，它们的功能会明显下降，这就给自动驾驶轿车和其他运用计算机视觉的要害体系带来了安全隐患。

由于即便有成百上千张相片，也无法彻底显现物体在实践日子中或许摆出的方向和方位。椅子能够是倒在地上的，T 恤或许被挂在树枝上，云能够反照在车身上…… 这时候辨认模型就会发生疑问。

AI 公司 Vicarious 的联合创始人 Dileep George 曾表明：“这表明咱们在 ImageNet 上花费了许多资源来进行过拟合。”过度拟合是指过于严密或精确地匹配特定数据集的效果，以致于无法拟合其他数据或猜测未来的调查效果。

与 ImageNet 随意搜集的相片不同，ObjectNet 上面供给的相片是有特别布景和视点的，研讨人员让自由职业者为数百个随机摆放的家具物品摄影，告知他们从什么视点摄影以及是摆在厨房、澡堂仍是客厅。

因而，数据会集的物品的摄影视点十分清奇，侧翻在床上的椅子、澡堂中倒扣的茶壶、挂在客厅椅背上的 T 恤……

麻省理工、IBM合推新式数据集，“为计算机视觉黄金时代做准备” 数据计算机架构第3张

图 | ImageNet(左栏)常常显现典型布景上的方针，很少有旋转，也很少有其他视角。典型的 ObjectNet 方针是从多个视点在不同的布景上进行映像的。前三列显现了椅子的三个特点：旋转、布景和视角。能够看到由于这些操作而引进到数据集的许多改动。由于纷歧致的长宽比，此图只稍微裁剪了 ObjectNet 图画。大多数检测器对 ObjectNet 中包括的大多数图画都辨认失利了（来历：论文）

麻省理工学院 CSAIL 和 CBMM 的研讨科学家 Boris Katz 说：“咱们创立这个数据集是为了告知人们，物体辨认问题依然是个难题。”“咱们需求更好、更智能的算法。”

Katz 和他的搭档将在正在举行的 NeurIPS 会议上展现他们的效果，NeurIPS 是人工智能和机器学习范畴的国际尖端会议。

麻省理工、IBM合推新式数据集，“为计算机视觉黄金时代做准备” 数据计算机架构第4张

图 | ObjectNet 研讨团队。这项研讨由美国国家科学基金会，麻省理工学院大脑、心智和机器中心，麻省理工学院 - IBM 沃森人工智能试验室，丰田研讨所和 SystemsThatLearn@CSAIL 建议赞助（来历：ObjectNet）

别的，ObjectNet 与传统图画数据集还有一个重要的差异：它不包括任何练习图画。也便是说，练习题和考试题重合的几率变小了，机器很难“做弊”。大多数数据集都分为练习集和测验集，可是练习集一般与测验集有纤细的相似之处，实践上是让模型在测验中占了先机。

乍一看，ImageNet 有 1500 万张图片，好像十分巨大。可是当去除去练习集部分时，它的巨细与 ObjectNet 适当，差不多有 5 万张相片。

“假如咱们想知道算法在实践国际中的体现怎样，咱们应该在没有成见的图画上测验它们，这些图画应该是它们从未见过的，”Andrei Barbu 说。

麻省理工、IBM合推新式数据集，“为计算机视觉黄金时代做准备” 数据计算机架构第5张

图 | 亚马逊的“土耳其机器人”Amazon Mechanical Turk（MTurk）是一种众包网络集市，能使计算机程序员调用人类智能来履行现在计算机尚不足以担任的使命。ImageNet 和 ObjectNet 都经过这些渠道来符号图片（来历：Amazon Mechanical Turk）

研讨人员说，效果表明，机器依然很难了解物体是三维的，物体也能够旋转和移动到新的环境中。“这些概念并没有被构建到现代方针探测器的架构中，”研讨的合著者、IBM 的研讨员 Dan Gutfreund 说。

模型在 ObjectNet 上的测验效果如此“惨烈”，并不是由于数据量不行，而是模型对类似于旋转、布景改换、视角切换等等的认知缺少安稳性。研讨人员是怎样得出这个定论的呢？他们让模型先用 ObjectNet 的一半数据进行练习，然后再用另一半数据进行测验。在相同的数据集上进行练习和测验，一般能够进步功能，可是这次，模型只得到了细微的改善，这表明模型没有彻底了解方针在实践国际中是怎样存在的。

所以，研讨人员以为，即便规划一个更大版别的、包括更多视角和方向的 ObjectNet，也纷歧定能教会人工智能了解物体的存在。ObjectNet 的方针是鼓励研讨人员提出下一波革命性的技能，就像开始推出的 ImageNet 应战相同。他们下一步会持续探求为何人类在图画辨认使命上具有杰出的泛化才能和鲁棒性，并期望这一数据集能够成为查验图画辨认模型泛化才能的评价办法。

“人们向这些物体检测器输入了许多数据，但报答却在递减，”Katz 说。“你不或许把一个物体的每一个视点和每一个或许存在的环境都拍出来。咱们期望这个新的数据集能够在实践国际中催生出一个不会出现意外失利的、强壮的计算机视觉体系。”

麻省理工、IBM合推新式数据集，“为计算机视觉黄金时代做准备” 数据计算机架构第6张

图 | Andrei Barbu 是麻省理工学院研讨科学家，首要研讨言语、视觉和机器人技能，一起还涉猎神经科学。（来历：MIT）

DeepTech 对该研讨合作者、CSAIL 和 CBMM 的研讨科学家 Andrei Barbu 进行了专访（以下为不改动本意的采访实录）：

DeepTech：这个构思是在什么时候发生的，意图是什么？现在能够下载运用了吗？

Andrei Barbu：ObjectNet 是在大约 4 年前提出的。由于即便许多数据集 (如 ImageNet) 的准确率高达 95% 以上，可是在实践国际中的功能或许比你预期的要差得多。

咱们的主意是将其他学科的优异试验规划直接引进机器学习，比方物理学和心理学。咱们需求一个数据集能够具有典型含义地表明你在实践日子中看到的东西，没有这个东西，谁还有决心做计算机视觉？咱们怎样能说计算机视觉现已为黄金时代和关乎安全的要害运用做好了预备?

ObjectNet 现已能够运用了，只需联络咱们，咱们将发送给你。

DeepTech：搜集实践数据用了多长时刻？数据的有效性怎样？

Andrei Barbu：咱们花了大约 3 年的时刻来弄清楚怎样做，花了大约 1 年的时刻来搜集数据。现在咱们能够更快地搜集另一个版别，时刻跨度为几个月。

咱们在土耳其机器人上搜集大约 10 万张图片，其间大约一半咱们保存了下来。许多相片都是在美国以外的当地摄影的，因而，有些物体或许看起来很生疏。老练的橙子是绿色的，香蕉有不同的巨细，衣服有不同的形状和质地。

DeepTech：本钱是多少？在搜集数据时遇到了什么问题?

Andrei Barbu：在学术界，本钱是杂乱的。人力本钱高于在土耳其机器人上的本钱，单在土耳其机器人上的本钱就很可观。

搜集这些数据遇到许多问题。这个进程很杂乱，由于它需求在不同的手机上运转；指令很杂乱，咱们花了一段时刻才真实了解怎样以一种安稳的办法解说这个使命；数据验证也很杂乱，小问题简直层出不穷。咱们需求许多试验来学习怎样有效地做到这一点。

DeepTech：ObjectNet 与 Imagenet 的差异和联络是什么?

Andrei Barbu：与 ImageNet 的不同之处在于：1、咱们搜集图画的办法能够操控误差。咱们告知人们怎样旋转物体，在什么布景中放置物体，以及在哪个视点摄影。在大多数的数据会集，图画布景的信息会导致机器不自觉的“诈骗”，它们会凭仗关于厨房布景的了解来猜测某个东西或许是平底锅。

2、这些相片不是从交际媒体上搜集的，所以它们不是那种美观的相片，人们也不想共享。咱们还保证搜集来自印度、美国以及不同社会经济阶级的图画。咱们还有损坏或破碎物体的图画。

3、没有练习集。

这在 10 年前并不是什么大问题，但咱们的办法在发现形式方面是如此强壮，以至于没有人能够辨认，所以咱们需求这些改动来防止简略地调整咱们的模型，以习惯来自相同数据集的练习和测验集之间的成见。

DeepTech：没有练习聚会带来什么影响?

Andrei Barbu：由于没有练习集，一切的办法都需求泛化。他们需求在一个数据集上进行练习，并在 ObjectNet 上进行测验。这意味着他们运用误差的或许性要小得多，而他们成为强壮的方针探测器的或许性要大得多。咱们想压服每个人，至少在机器学习的既定范畴，搜集练习集的小组应该与搜集测验集的小组分隔。

由于咱们现已成为一个数据驱动的研讨范畴，咱们需求改动搜集数据的办法，以推进科学的开展。

DeepTech：3D 方针太杂乱了，我以为它很难表明。比方怎样去表明旋转的椅子?

Andrei Barbu：我不以为 3D 很杂乱。

明显你和我对物体的三维形状有必定的知道，由于咱们能够重新的视点幻想物体。

我以为这也是计算机视觉的未来，ObjectNet 的规划便是在对这个存疑。它不关怀你构建模型的基准，真实重要的是，它为你供给了一个更牢靠的东西，用来检测你的模型是不是满足强。

DeepTech：你们接下来的研讨方案是什么?

Andrei Barbu：咱们正在运用 ObjectNet 来了解人类的视觉。对人类在大规模物体辨认方面的研讨还不多，还有许多空白需求添补。咱们将向不计其数的在土耳其机器人上有时间短演示的人展现 ObjectNet，让人们了解人类处理图片的各个阶段。

这也将有助于答复一些咱们现在还不太了解的关于人类视觉和物体探测器之间联系的基本问题，比方，物体探测器的行为是否就像人类只能很快地看到一个物体？咱们的开始效果表明，状况并非如此，这些差异能够用来制作更好的探测器。

咱们还在开发下一个版别的 ObjectNet，我以为它关于检测器来说会愈加困难：带有部分遮挡的 ObjectNet。方针将被其他方针部分掩盖。咱们和其他许多研讨小组有理由置疑探测器对有遮挡的物体的辨认还不行安稳，可是还需求一个严厉的基准来影响下一波的发展。