这是来自布拉格捷克理工大学和Snap研究所的黑科技——**只需要2个特定的帧,就能实时变换视频中对象的颜色、风格甚至是样式。

本文经AI新媒体量子位(大众号ID:QbitAI)授权转载,转载请联络出处。

动画,动画,便是你你的,我我的。

就像下面这张GIF,左面是张静态图片,跟着画者一点一点为其勾勒色彩,右边的动图也在实时地改换色彩。

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第1张

这便是来自布拉格捷克理工大学和Snap研讨所的黑科技——**只需求2个特定的帧,就能实时改换视频中方针的色彩、风格乃至是款式。

当然,更凶猛的还在后边。

拿一张你的卡通头像图片,随意对其修正,顶着这张头像,坐在镜头前的你,也会实时产生改动。

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第2张

乃至,你还能够一边画自己,一边赏识自己渐渐变成动画作用的进程。

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第3张

真可谓是这边着,高视阔步着,动画就出来了。

而且整个进程无需冗长的练习进程,也不需求大规模练习数据集,研讨也提交至SIGGRAPH 2020。

那么,这么不识抬举的作用到底是怎么做到的呢?

交互式视频风格化

首要,输入一个由 N 帧组成的视频序列 I。

如下图所示,关于任何一帧 Ii,能够挑选用蒙版 Mi来划定风格搬迁的区域,或者是对整一帧进行风格搬迁。

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第4张

用户需求做的是供给风格化的关键帧 Sk,其风格会被以在语义上有意义的办法传递到整个视频序列中。

与此前办法不同的是,这种风格搬迁是以随机次序进行的,不需求等候次序靠前的帧先完结风格化,也不需求对来自不同关键帧的风格化内容进行显式兼并。

也便是说,该办法实际上是一种翻译过滤器,能够快速从几个异构的手绘示例 Sk 中学习风格,并将其“翻译”给视频序列 I 中的任何一帧。

这个图画转化结构根据 U-net 完成。而且,研讨人员选用根据图画块(patch-based)的练习办法和按捺视频闪耀的处理计划,处理了少样本练习和时刻共同性的问题。

根据图画块的练习战略

关键帧是少样本数据,为了防止过拟合,研讨人员选用了根据图画块的练习战略。

从原始关键帧(Ik)中随机抽取一组图画块(a),在网络中生成它们的风格化对应块(b)。

然后,核算这些风格化对应块(b)相关于从风格化关键帧(Sk)中取样对应图画块的丢失,并对差错进行反向传达。

这样的练习计划不限于任何特定的丢失函数。本项研讨中,选用的是L1丢失、对抗性丢失和VGG丢失的组合。

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第5张

超参数优化

处理了过拟合之后,还有一个问题,便是超参数的优化。不妥的超参数可能会导致推理质量低下。

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第6张

研讨人员运用网格查找法,对超参数的4维空间进行采样:Wp——练习图画块的巨细;Nb——一个batch中图画块的数量;α——学习率;Nr——ResNet块的数量。

关于每一个超参数设置:(1)履行给定时刻练习;(2)对不行见帧进行推理;(3)核算推理出的帧(O4)和实在值(GT4)之间的丢失。

而方针便是将这个丢失最小化。

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第7张

进步时刻共同性

练习好了翻译网络,就能够在显卡上实时或并行地完成视频风格搬迁了。

不过,研讨人员发现在许多情况下,视频闪耀仍很明显。

第一个原因,是原始视频中存在时态噪声。为此,研讨人员选用了在时域中运转的双方滤波器的运动补偿变体。

第二个原因,是风格化内容的视觉歧义。处理办法是,供给一个额定的输入层,以进步网络的判别才能。

该层由一组随机2维高斯分布的稀少调集组成,能协助网络辨认部分上下文,并按捺歧义。

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第8张

不过,研讨人员也提到了该办法的局限性:

当呈现新的没有被风格化的特征时,该办法一般不能为其生成共同的风格化作用。需求供给额定的关键帧来使风格化共同。

处理高分辨率(如4K)关键帧比较困难

运用运动补偿的双方滤波器,以及随机高斯混合层的创立,需求获取多个视频帧,对核算资源的要求更高,会影响实时视频流中实时推理的作用。(Demo的实时捕获会话中,没有选用进步时刻共同性的处理办法)

研讨团队

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第9张

这项研讨一作为Ondřej Texler,布拉格捷克理工大学核算机图形与交互系的三年级博士生。

本科和硕士也均结业于此。首要研讨爱好是核算机图形学、图画处理、核算机视觉和深度学习。

一边动,一边画,自己就变二次元:实时交互式视频风格化  视频 AI 动画 第10张

除了一作之外,咱们还发现一位华人作者——柴蒙磊。博士结业于浙江大学,目前为Snap Research构思视觉(Creative Vision)组的资深研讨科学家。

首要从事核算机视觉和核算机图形学的研讨,主攻人类数字化、图画处理、三维重建和根据物理的动画。

传送门

项目地址:

https://ondrejtexler.github.io/patch-based_trAIning/

 一边动,一边画,自己就变二次元:实时交互式视频风格化 视频 AI 动画 第11张

转载请说明出处
知优网 » 一边动,一边画,自己就变二次元:实时交互式视频风格化

发表评论

您需要后才能发表评论