这是来自布拉格捷克理工大学和Snap研究所的黑科技——**只需要2个特定的帧,就能实时变换视频中对象的颜色、风格甚至是样式。
本文经AI新媒体量子位(大众号ID:QbitAI)授权转载,转载请联络出处。
动画,动画,便是你动你的,我画我的。
就像下面这张GIF,左面是张静态图片,跟着画者一点一点为其勾勒色彩,右边的动图也在实时地改换色彩。
这便是来自布拉格捷克理工大学和Snap研讨所的黑科技——**只需求2个特定的帧,就能实时改换视频中方针的色彩、风格乃至是款式。
当然,更凶猛的还在后边。
拿一张你的卡通头像图片,随意对其修正,顶着这张头像,坐在镜头前的你,也会实时产生改动。
乃至,你还能够一边画自己,一边赏识自己渐渐变成动画作用的进程。
真可谓是这边动着,高视阔步画着,动画就出来了。
而且整个进程无需冗长的练习进程,也不需求大规模练习数据集,研讨也提交至SIGGRAPH 2020。
那么,这么不识抬举的作用到底是怎么做到的呢?
交互式视频风格化
首要,输入一个由 N 帧组成的视频序列 I。
如下图所示,关于任何一帧 Ii,能够挑选用蒙版 Mi来划定风格搬迁的区域,或者是对整一帧进行风格搬迁。
用户需求做的是供给风格化的关键帧 Sk,其风格会被以在语义上有意义的办法传递到整个视频序列中。
与此前办法不同的是,这种风格搬迁是以随机次序进行的,不需求等候次序靠前的帧先完结风格化,也不需求对来自不同关键帧的风格化内容进行显式兼并。
也便是说,该办法实际上是一种翻译过滤器,能够快速从几个异构的手绘示例 Sk 中学习风格,并将其“翻译”给视频序列 I 中的任何一帧。
这个图画转化结构根据 U-net 完成。而且,研讨人员选用根据图画块(patch-based)的练习办法和按捺视频闪耀的处理计划,处理了少样本练习和时刻共同性的问题。
根据图画块的练习战略
关键帧是少样本数据,为了防止过拟合,研讨人员选用了根据图画块的练习战略。
从原始关键帧(Ik)中随机抽取一组图画块(a),在网络中生成它们的风格化对应块(b)。
然后,核算这些风格化对应块(b)相关于从风格化关键帧(Sk)中取样对应图画块的丢失,并对差错进行反向传达。
这样的练习计划不限于任何特定的丢失函数。本项研讨中,选用的是L1丢失、对抗性丢失和VGG丢失的组合。
超参数优化
处理了过拟合之后,还有一个问题,便是超参数的优化。不妥的超参数可能会导致推理质量低下。
研讨人员运用网格查找法,对超参数的4维空间进行采样:Wp——练习图画块的巨细;Nb——一个batch中图画块的数量;α——学习率;Nr——ResNet块的数量。
关于每一个超参数设置:(1)履行给定时刻练习;(2)对不行见帧进行推理;(3)核算推理出的帧(O4)和实在值(GT4)之间的丢失。
而方针便是将这个丢失最小化。
进步时刻共同性
练习好了翻译网络,就能够在显卡上实时或并行地完成视频风格搬迁了。
不过,研讨人员发现在许多情况下,视频闪耀仍很明显。
第一个原因,是原始视频中存在时态噪声。为此,研讨人员选用了在时域中运转的双方滤波器的运动补偿变体。
第二个原因,是风格化内容的视觉歧义。处理办法是,供给一个额定的输入层,以进步网络的判别才能。
该层由一组随机2维高斯分布的稀少调集组成,能协助网络辨认部分上下文,并按捺歧义。
不过,研讨人员也提到了该办法的局限性:
当呈现新的没有被风格化的特征时,该办法一般不能为其生成共同的风格化作用。需求供给额定的关键帧来使风格化共同。
处理高分辨率(如4K)关键帧比较困难
运用运动补偿的双方滤波器,以及随机高斯混合层的创立,需求获取多个视频帧,对核算资源的要求更高,会影响实时视频流中实时推理的作用。(Demo的实时捕获会话中,没有选用进步时刻共同性的处理办法)
研讨团队
这项研讨一作为Ondřej Texler,布拉格捷克理工大学核算机图形与交互系的三年级博士生。
本科和硕士也均结业于此。首要研讨爱好是核算机图形学、图画处理、核算机视觉和深度学习。
除了一作之外,咱们还发现一位华人作者——柴蒙磊。博士结业于浙江大学,目前为Snap Research构思视觉(Creative Vision)组的资深研讨科学家。
首要从事核算机视觉和核算机图形学的研讨,主攻人类数字化、图画处理、三维重建和根据物理的动画。
传送门
项目地址:
https://ondrejtexler.github.io/patch-based_trAIning/
知优网 » 一边动,一边画,自己就变二次元:实时交互式视频风格化