不可思议!DALL·E实现虚拟视频换装,网友:买衣服的钱省了

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

转载自:机器之心 | 编辑:小舟、陈萍

一位twitter博主借助DALL·E模型,成功给视频中的人物虚拟换装。

DALL·E 是 OpenAI 推出的文本转图像模型,生成效果奇幻且逼真。升级为 DALL·E 2 后,生成图像具有更高的分辨率和更低的延迟。值得注意的是,DALL·E 2 还添加了一个图像编辑功能,可以修改图像的部分区域,例如在下图中 3 的位置加一只柯基犬:

e5e64c1518106689e83898a3e4f34e41.png

现在,twitter 用户 Karen X. Cheng 把 DALL·E 2 的这个编辑功能用在了视频换装上,我们看到视频中的女生在往前走的过程中换了多套衣服,并且丝滑切换,无缝衔接。

55a06ab793dcf1cac87d97386b4fd105.gif

要了解这个视频用到的方法,我们首先要了解一下 DALL·E 生成「数字化」服装的能力。日前,一位名为 Paul Trillo 的 twitter 用户此前展示了他与艺术家 Shyama Golden 合作完成的上百套设计服装。

e1c8fd233c10d5577b9ae720de664365.png

相比于大多数用 AI 进行服装设计的研究,DALL·E 2 的优点就是让设计者可以使用文本描述来扩展设计空间,其文本到图像的强大生成能力可以完成很多新奇的设计思路。

扫描二维码关注公众号,回复: 14509318 查看本文章

而 Karen X. Cheng 发布的换装视频不仅生成了多套服装,还能在人行走运动的过程中丝滑切换,我们来具体看一下她是怎么做的。

DALL·E + 开源工具

视频作者 Karen X. Cheng 首先涂抹掉现有服装的一部分,然后在上面涂上颜色。这一步她也考虑过涂抹掉整个衣服,但生成结果看起来没有那么好,因此选择保留衣服原有的一小部分,这样一来,DALL·E 能够更好地匹配颜色和照明。

如下动图所示,衣服上身被涂抹掉,最后生成了三种不同类型的上衣。

18a4f4418c3b74510e61937a6495ab6d.gif


然后一个关键的难题是 DALL·E 在生成图像方面表现卓越,但在视频上就不太行了,要让 DALL·E 生成的图像实现帧与帧之间的一致性是很困难的。这里 Karen X. Cheng 列举了一些早期试验的失败案例,下面动图在换装时,很明显能看到不同衣服之间存在交叉部分:


3e0e10fe77bfcc7bf9c5af977aea7715.gif

可能有人会问,让 DALL·E 在每一帧中生成不同的衣服,衣服存在交叉部分问题就可以解决了。但作者想要的效果是同一套衣服坚持几帧,以实现较好的展示效果,但这是 DALL·E 目前做不到的。

经过一番实验,作者发现了一个可用的工具 EbSynth,该工具主要是将视频素材转换为各种风格的动画。简单来说,就是从一段视频中选出几张图,然后根据自己的喜好,换成你想要的风格,整个视频就能全部变成你期望的画风了。效果如下所示:

5c838db24388c1097d6457761a8c326b.gif

EbSynth 擅长风格转换,如果把 DALL·E 生成静态图和 EbSynth 转换视频风格的功能结合起来,就能够形成视频中无缝换装的效果:

fa10aa202d68531b497cc13fb6158935.gif

‍最后作者还用到了 DAIN(视频补帧)工具,该工具可以给一些动作场面添加新的帧,让整个视频看起来更加流畅。作者用实验证明了这一点

4a513c1cba6c5abbb06a35f527b38ce6.gif

这样 Karen X. Cheng 就完成了整个换装视频。有网友表示希望作者开设一门课程,专门介绍这项研究,详细解读一下。

275a97c82a6c6280873c3745f72905e7.png

还有网友调侃道网络红人甚至不用再买新衣服了:

72ba58a8499de4b16019a00bae7e18ac.png

看来以后穿搭博主的视频也可以用上 DALL·E 这样的 AI 模型了。

参考链接:https://twitter.com/karenxcheng/status/1564626773001719813

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

 
  

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
 
  
整理不易,请点赞和在看

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/126684902