百年前的京城，AI带你去穿越

百年前的京城，AI带你去穿越

近日B站UP主“大谷的游戏创作小屋”在6月30日上传的一段，《我用人工智能修复了百年前的北京影像!![民俗乐队，街边地摊与剃头匠]》（https://www.bilibili.com/video/BV1ga4y1e77T?zw），随即该视频在在全网火爆刷屏，目前已经在全网积累获得了超千万次的播放量，B站的star数也已经过万。

这段视频当中分为了三个部分，第一是段是黑白影像到还原后的影像的对比图，在这段中up主还特别感谢了完好地保存资料的美国南卡罗莱纳大学，毕竟有关百年前北京的民俗小吃、街边剃头等等方面的第一手影像资料，我国自己都没有留档了。

第二段则展示了当时北京的民俗民风：

而且其中还有那个时代的摇滚乐-“京韵大鼓”，看到这段笔者都不禁哼起了幼时常听的一首歌-“我爷爷小的时候,常在这里玩耍,高高的前门,仿佛挨着我的家, 一蓬衰草,几声蛐蛐儿叫,伴随他度过了那灰色的年华. 吃一串冰糖葫芦就算过节,他一日那三餐,窝头咸菜就着一口大碗茶”。而这段视频与歌词的结合，真实反应了当时的北京城的原貌。

第三段则取焦在了一位小伙子街边剃头的场景，根据up主的回应，其中的音频是没有经过后期处理的，而这段完全使用京腔的对话，是否也让你充满亲切呢？

可以说这短短的几分钟视频向我们传递了很多信息，比如视频中出现的人物中男女比例接近20：1，也就是说当时中国风气还是相当封建与保守的，而且由于当时摄像设备都非常庞大，因此不排除视频中很多镜头可能都是摆拍的。但不管怎么说这也是我们距离老北京距离最近的一次了，无论是资料保存方南卡罗莱纳大学还是B站up主大谷，都非常值得我们点赞。

AI穿越老北京的背后

根据UP主大谷的介绍，他主要使用的技术有两个一是上海交通大学电子信息与电气工程学院的博士生Bao Wenbo 等人提出的 DAIN 插帧技术（参见https://github.com/baowenbo/DAIN），二是日本筑波大学和早稻田大学的两位研究者合作提出DeepRemaster（参考https://github.com/satoshiiizuka/siggraphasia2019_remastering）

AI还原图像，是典型的图像着色技术，背后其实是信息补全和修复技术。而在这方面对抗神经网络（GAN)是占据统治地位的。下面将其技术发展脉落，简单向各位读者做一下介绍：

PIX2PIX图像修复的始祖：PIX2PIX这个模型github上很多，笔者推荐大家可以参考（https://github.com/phillipi/pix2pix）来训练模型MODEL，pix2pix是典型的对抗神经网络，它实现由轮廓信息还原图像的功能。

目前读者可以到https://affinelayer.com/pixsrv/这个网站来感受一下如何从一个简笔画出的轮廓转换成真实的图像。

后来N厂又提出了PIX2PIXHD技术，将之前由PIX2PIX生成的图像分辨率提高了很多，可以说PIX2PIX是这些信息修复与补全技术的始祖。

interactive-deep-colorization黑白图像瞬间变彩色：2017年加州大学伯克利分校的研究人员发表了一篇《Real-Time User-Guided Image Colorization with Learned Deep Priors》的论文，用Learned Deep Priors的方式实时进行图像着色，（参考：https://github.com/junyanz/interactive-deep-colorization/）

该论文中所提出的模型会结合输入的灰度图像和简单的用户提示，直接映射到卷积神经网络（CNN），即可输出用户满意的彩色图。

传统的神经网络一般通过人为地定义相关规则，并从大规模数据集中学习高级语义信息，融合图像的低级特征，来帮助用户对图像进行着色。我们通过模拟用户操作，训练了一百万张图像。为了引导用户选择有效的着色方案，该系统会根据输入图像和当前用户的输入来提出最佳的着色方案。图像着色仅通过单次前向传播即可完成，计算量小，可实时完成。最近生成的模型可以模拟用户输入，快速地创建逼真的图像，效果如下图：

Partialconv损失再多也不怕： Partialconvs模型是N厂在2018年提出的（参https://github.com/NVIDIA/partialconv）Partialconv其实是PIX2PIX的2.0版本，即使图像丢失了大面积的像素，也能通过该模型将损失进行修复。其效果图如下：

DAIN让视频丝般顺滑：DAIN就是我们本次视频UP主大谷，所直接用到的AI技术之一（论文地址：https://sites.google.com/view/wenbobao/dain，Github地址：https://github.com/baowenbo/DAIN)，我们知道百年前的视频拍摄设备每秒拍摄的帧数还非常少，视频看起来总会显得断断续续的，DAIN的全称是Depth-Aware Video Frame Interpolation，即深度感知视频帧插值，工作目标就是原始帧之间合成不存在的帧，DAIN可以把30fps的进一步插帧到480fps，这已经超过了很多手机的慢动作录像帧率，从而提高视步的流畅度。

DAIN模型中上海交大的生Bao Wenbo博士等研究人员，提出了一种通过探索深度信息来检测遮挡，生成新帧的方法。具体来说，作者开发了一个深度感知光流投影层来合成中间流，中间流对较远的对象进行采样。此外，学习分层功能以从相邻像素收集上下文信息。

上图是DAIN的体系架构：给定两个时刻的输入帧，先估计光流和深度图，然后使用建议的深度感知流投影层生成中间流。然后，模型基于光流和局部插值内核对输入帧、深度图和上下文特征进行扭曲，合成输出帧。

而且最为良心的一点是Bao Wenbo博士还提供给Windows系统用户一个现成的exe绿色安装包（https://drive.google.com/file/d/1uuDkF4j4H1AI1ot88XdqzwMdvAPhxKN8/view），可以让编程小白也能直接使用大神级的模型。

DeepReminder老视频修复的终极杀器：DeepReminder其实是上文所述interactive-deep-colorization的动态视频版本，它提出了一种使用深度卷积网络，半自动地重新录制老式视频。DeepReminder是基于时间卷积和源参考注意机制的，这些机制是在视频上通过基于实例的恶化模拟训练的，这允许我们自动去噪，提高对比度和锐度，并基于手动创建的参考颜色帧添加颜色。

其效果如下：

奇点已至

随着AI的大发展，目前已经进入了一个由科技引领的红利期，熟悉各种模型的人员往往可以将各种技术与模型综合使用，从而达到意料不到的好效果。AI修复老照片的视频，是这种综合应用的重要里程碑，他虽然没有提出什么新的模型，但是修复的视频不但带我们领略了历史的风貌，也为我们展示了AI模型大融合所展示的威力，所以这里笔者还是建议对于AI领域给予持续的关注，低头看路的同时也要抬头看天，把握住最新的发展机会

百年前的京城，AI带你去穿越

猜你喜欢