在2D图像中做3D目标检测很难?现在,拿着一部手机就能做到,还是实时的那种。这就是谷歌AI今天发布的MediaPipe Objectron,一个可以实时3D目标检测的pipeline。

本文经AI新媒体量子位(大众号ID:QbitAI)授权转载,转载请联络出处。

在2D图画中做3D方针检测很难?

现在,拿着一部手机就能做到,仍是实时的那种。

这便是谷歌AI今日发布的MediaPipe Objectron,一个能够实时3D方针检测的pipeline。

分隔来看:

MediaPipe是一个开源的跨渠道结构,用于构建pipeline来处理不同形式的感知数据

Objectron在移动设备上实时核算面向方针的3D鸿沟框。

日常日子中的物体,它都能够检测,来看下作用。

谷歌AI良知开源:一部手机就能完结3D方针检测,仍是实时的那种  AI 数据 人工智能 第1张

它能够在移动端设备上,实时地确认物体的方位、方向和巨细。

谷歌AI良知开源:一部手机就能完结3D方针检测,仍是实时的那种  AI 数据 人工智能 第2张

这个pipeline检测2D图画中的物体,然后经过机器学习模型,来估量它的姿势和巨细。

那么,它详细是怎样做到的呢?

获取实在国际中的3D数据

咱们知道,3D数据集相关于2D来说,十分有限。

为了处理这个问题,谷歌AI的研究人员运用移动增强实际(AR)会话数据(session data),开发了新的数据pipeline。

现在来说,大部分智能手机现在都具有了增强实际的功用,在这个进程中捕捉额定的信息,包含相机姿势、稀少的3D点云、估量的光照和平面。

为了符号groud truth数据,研究人员构建了一个新的注释东西,并将它和AR会话数据拿来一同运用,能让注释器快速地符号方针的3D鸿沟框。

这个东西运用分屏视图来显现2D视频帧,例如下图所示。

左面是掩盖的3D鸿沟框,右边显现的是3D点云、摄像机方位和检测平面的视图。

谷歌AI良知开源:一部手机就能完结3D方针检测,仍是实时的那种  AI 数据 人工智能 第3张

注释器在3D视图中制作3D鸿沟框,并经过检查2D视频帧中的投影来验证其方位。

关于静态方针,只需求在单帧中注释一个方针,并运用来自AR会话数据的ground truth摄像机位姿信息,将它的方位传播到一切帧。

这就让该进程变得十分高效。

AR组成数据生成

为了进步猜测的准确性,现在比较盛行的一种办法,便是经过组成的3D数据,来“填充”实在国际的数据。

但这样往往就会产生很不实在的数据,乃至还需求很多的核算作业。

谷歌AI就提出了一种新的办法——AR组成数据生成(AR Synthetic Data Generation)。

这就答应研究人员能够运用相机的姿势、检测到的平面、估量的照明,来生成物理上或许的方位以及具有与场景匹配的照明方位 。

这种办法产生了高质量的组成数据,与实在数据一同运用,能够将准确率进步约10%。

谷歌AI良知开源:一部手机就能完结3D方针检测,仍是实时的那种  AI 数据 人工智能 第4张

用于3D方针检测的机器学习pipeline

为了到达这个意图,研究人员建立了一个单阶段的模型,从一个RGB图画猜测一个物体的姿势和物理巨细。

模型骨干部分有一个依据MobileNetv2的编码器-解码器架构。

谷歌AI良知开源:一部手机就能完结3D方针检测,仍是实时的那种  AI 数据 人工智能 第5张

还选用一种多使命学习办法,经过检测和回归来一起猜测物体的形状。

关于形状使命,依据可用的ground truth注释(如切割)来猜测方针的形状信号;关于检测使命,运用带注释的鸿沟框,并将高斯散布拟合到框中,以框形质心为中心,并与框的巨细成份额的标准差。

检测的方针是猜测这个散布,它的峰值代表了方针的中心方位。

回归使命估量鸿沟框8个极点的2D投影。为了取得鸿沟框的终究3D坐标,还运用了一个老练的姿势估核算法(EPnP),能够在不知道物体尺度的前提下康复物体的3D鸿沟框。

有了3D鸿沟框,就能够很容易地核算出物体的姿势和巨细。

谷歌AI良知开源:一部手机就能完结3D方针检测,仍是实时的那种  AI 数据 人工智能 第6张

这个模型也是十分的轻量级,能够在移动设备上实时运转。

在MediaPipe中进行检测和盯梢

在移动端设备运用这个模型的时分,因为每一帧中3D鸿沟框的含糊性,模型或许会产生“颤动”。

为了缓解这种状况,研究人员选用了最近在“2D界”发布的检测+盯梢结构。

这个结构减少了在每一帧上运转网络的需求,答应运用更大、更准确的模型,还能保持在pipeline上的实时性。

为了进一步进步移动pipeline的功率,每隔几帧只让运转一次模型揣度。

谷歌AI良知开源:一部手机就能完结3D方针检测,仍是实时的那种  AI 数据 人工智能 第7张

最终,这么好的项目,当然现已开源了!

戳下方传送门链接,快去试试吧~

传送门

GitHub项目地址:
https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md

谷歌AI博客:
https://AI.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

转载请说明出处
知优网 » 谷歌AI良知开源:一部手机就能完结3D方针检测,仍是实时的那种

发表评论

您需要后才能发表评论