一边动，一边画，自己就变二次元：实时交互式视频风格化-人工智能-知优网

这是来自布拉格捷克理工大学和Snap研究所的黑科技——**只需要2个特定的帧，就能实时变换视频中对象的颜色、风格甚至是样式。

本文经AI新媒体量子位（大众号ID:QbitAI）授权转载，转载请联络出处。

动画，动画，便是你动你的，我画我的。

就像下面这张GIF，左面是张静态图片，跟着画者一点一点为其勾勒色彩，右边的动图也在实时地改换色彩。

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第1张

这便是来自布拉格捷克理工大学和Snap研讨所的黑科技——**只需求2个特定的帧，就能实时改换视频中方针的色彩、风格乃至是款式。

当然，更凶猛的还在后边。

拿一张你的卡通头像图片，随意对其修正，顶着这张头像，坐在镜头前的你，也会实时产生改动。

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第2张

乃至，你还能够一边画自己，一边赏识自己渐渐变成动画作用的进程。

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第3张

真可谓是这边动着，高视阔步画着，动画就出来了。

而且整个进程无需冗长的练习进程，也不需求大规模练习数据集，研讨也提交至SIGGRAPH 2020。

那么，这么不识抬举的作用到底是怎么做到的呢？

交互式视频风格化

首要，输入一个由 N 帧组成的视频序列 I。

如下图所示，关于任何一帧 Ii，能够挑选用蒙版 Mi来划定风格搬迁的区域，或者是对整一帧进行风格搬迁。

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第4张

用户需求做的是供给风格化的关键帧 Sk，其风格会被以在语义上有意义的办法传递到整个视频序列中。

与此前办法不同的是，这种风格搬迁是以随机次序进行的，不需求等候次序靠前的帧先完结风格化，也不需求对来自不同关键帧的风格化内容进行显式兼并。

也便是说，该办法实际上是一种翻译过滤器，能够快速从几个异构的手绘示例 Sk 中学习风格，并将其“翻译”给视频序列 I 中的任何一帧。

这个图画转化结构根据 U-net 完成。而且，研讨人员选用根据图画块（patch-based）的练习办法和按捺视频闪耀的处理计划，处理了少样本练习和时刻共同性的问题。

根据图画块的练习战略

关键帧是少样本数据，为了防止过拟合，研讨人员选用了根据图画块的练习战略。

从原始关键帧（Ik）中随机抽取一组图画块（a），在网络中生成它们的风格化对应块（b）。

然后，核算这些风格化对应块（b）相关于从风格化关键帧（Sk）中取样对应图画块的丢失，并对差错进行反向传达。

这样的练习计划不限于任何特定的丢失函数。本项研讨中，选用的是L1丢失、对抗性丢失和VGG丢失的组合。

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第5张

超参数优化

处理了过拟合之后，还有一个问题，便是超参数的优化。不妥的超参数可能会导致推理质量低下。

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第6张

研讨人员运用网格查找法，对超参数的4维空间进行采样：Wp——练习图画块的巨细；Nb——一个batch中图画块的数量；α——学习率；Nr——ResNet块的数量。

关于每一个超参数设置：（1）履行给定时刻练习；（2）对不行见帧进行推理；（3）核算推理出的帧（O4）和实在值（GT4）之间的丢失。

而方针便是将这个丢失最小化。

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第7张

进步时刻共同性

练习好了翻译网络，就能够在显卡上实时或并行地完成视频风格搬迁了。

不过，研讨人员发现在许多情况下，视频闪耀仍很明显。

第一个原因，是原始视频中存在时态噪声。为此，研讨人员选用了在时域中运转的双方滤波器的运动补偿变体。

第二个原因，是风格化内容的视觉歧义。处理办法是，供给一个额定的输入层，以进步网络的判别才能。

该层由一组随机2维高斯分布的稀少调集组成，能协助网络辨认部分上下文，并按捺歧义。

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第8张

不过，研讨人员也提到了该办法的局限性：

当呈现新的没有被风格化的特征时，该办法一般不能为其生成共同的风格化作用。需求供给额定的关键帧来使风格化共同。

处理高分辨率（如4K）关键帧比较困难

运用运动补偿的双方滤波器，以及随机高斯混合层的创立，需求获取多个视频帧，对核算资源的要求更高，会影响实时视频流中实时推理的作用。（Demo的实时捕获会话中，没有选用进步时刻共同性的处理办法）

研讨团队

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第9张

这项研讨一作为Ondřej Texler，布拉格捷克理工大学核算机图形与交互系的三年级博士生。

本科和硕士也均结业于此。首要研讨爱好是核算机图形学、图画处理、核算机视觉和深度学习。

一边动，一边画，自己就变二次元：实时交互式视频风格化视频 AI 动画第10张

除了一作之外，咱们还发现一位华人作者——柴蒙磊。博士结业于浙江大学，目前为Snap Research构思视觉(Creative Vision)组的资深研讨科学家。

首要从事核算机视觉和核算机图形学的研讨，主攻人类数字化、图画处理、三维重建和根据物理的动画。

传送门

项目地址：

https://ondrejtexler.github.io/patch-based_trAIning/

视频 AI 动画

转载请说明出处
知优网 » 一边动，一边画，自己就变二次元：实时交互式视频风格化

站长资讯网友投稿帖

分享到：

相关推荐

微信H5视频打赏系统源码+被封可复活+已对接支付（微信生成打赏视频平台）

通用人工智能突破：一个模型、一套权重通吃600+视觉文本和决策任务

浅谈51talk受政策影响后杀入AI教育变局，会不会顺利（51talk受教育新规影响）

最新DSCMS正版视频打赏系统源码

帝国cms宝宝儿歌动画儿童游戏网站源码仿61BAOBAO网全站数据

今日头条自媒体视频赚钱项目：月入过万不是梦（今日头条怎么做自媒体赚钱视频）

新版全网视频VIP影视APP系统源码支持商城系统+安卓苹果双端（2020全网VIP影视前后双端APP源码+内附教程）

抖音新规，低于1000粉，视频挂购物车的次数又有新限制？（抖音1000粉丝一天可以挂几个购物车）

5女子刷抖音做试衣员被骗58万抖音：应警惕试衣员兼职诈骗（抖音卖衣服诈骗）

美食UP主“一食纪”发视频疑轻生 B站官方：已报警（b站美食纪录片）

发表评论