「我去，这也能行！」令人惊叹的8个深度学习应用

原文链接： https://zhuanlan.zhihu.com/p/79301140

2016 年，围棋程序 AlphaGo 击败人类顶尖选手，让大众了解到深度学习的概念。不仅如此，在计算机视觉和自然语言处理领域，深度学习已经有了广泛而成熟的应用场景。人脸识别、自动驾驶、安全防范，都有深度学习的身影。语音识别、问答系统、机器翻译，都是深度学习技术的模范实践。

下面收集了一些深度学习的创意应用，希望能够帮助大家开开脑洞，并感受下深度学习在生活中的应用潜力。当然也会提供了尽可能多的学习资料，让各位学霸能够享受尽情折磨自己，不断进步的快感。

1.Photo Wake-Up

华盛顿大学的博士生 Chung-Yi Weng 和他的朋友们共同开发的一种新形式的 3D 角色动画，他们将深度学习中的 Mask R-CNN（实例分割模型）与 SMPL 模板（一种参数化人体模型）模型相结合，让图像中的人物从图片走进我们的现实中。

通过从 2D 图像中剪切出主体，将其装配到预先构建的骨架上，这样就可以让图像中的主体进行一系列预定动作，如跑步、走路、跳跃。当与智能设备（例如智能手机或平板电脑）一起使用时，3D 动画可以通过 2D 的照片或者图画“唤醒”并走向现实。

资料推荐:
[1] 论文参考：https://arxiv.org/abs/1812.02246?context=cs
[2] 视频资料：https://youtu.be/hs9K3eNkQOo

2.Let there be color！

自动为黑白照片/视频内容进行上色。该项目运用深度学习网络学习自然存在于照片中的某些模式——比如，天通常是蓝的，云是白的或者灰的，草是绿的。通过这类规则，完全不需要人为操作就能够对照片进行重新上色。赶紧偷偷的告诉爷爷去，"家里的黑白老照片马上就要变彩色了！“

资料推荐:
[1] GitHub：https://github.com/satoshiiizuka/siggraph2016_colorization
[2] 论文参考：http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf
[3] 官方网站：http://iizuka.cs.tsukuba.ac.jp/projects/colorization/en/

3.LipNet

牛津大学和 Deepmind 的科学家共同完成了这一项目，通过“观看”人类说话的视频，以及输入相应文字，对唇语的解读准确率高达93.4%，远超人类读唇者52%的平均水平。对于听力障碍的人来说这个简直是福音。

资料推荐：
[1] GitHub：https://github.com/bshillingford/LipNet
[2] 论文参考：https://arxiv.org/pdf/1611.01599.pdf

4.Handwriting Generation

根据一些书写笔迹，学习出笔的移动轨迹和文字之间的关系。然后生成一摸一样的笔迹，并能过模仿多种笔迹。小朋友从此不再害怕老师要家长签字了！

资料推荐：
[1] 论文参考：https://arxiv.org/pdf/1308.0850v5.pdf
[2] Demo展示：http://www.cs.toronto.edu/~graves/handwriting.html

5.Deep Dreaming

Google 的研究者找到了一种用深度学习来增强图像特征的方法，随后，他们就开发了 Deep Dreaming ——它能够在图片中生成一些不可思议的幻象。因为有些和梦境十分相似，因此取名 Deep Dreaming。具体生成什么样的幻想与这个深度学习系统最近被暴露在什么样的环境下有关，有时它甚至能生成吓人的噩梦。

资料推荐：
[1] 项目首页：https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html
[2] 影集：http://www.telegraph.co.uk/technology/google/11730050/deep-dream-best-images.html?frame=3370674
[3]GitHub：https://github.com/google/deepdream

6.Pix2Pix

这个点子与之前提到的 Let there be color！有点类似，不过要更有创造力一点。你可以往电脑中输入一幅简笔画，甚至一些色块，然后让电脑发挥自己的创造力输出新的图片。类似地，你也可以把衣服航拍照片变成一幅地图，将白天的场景变成夜晚。

资料推荐：
[1] GitHub:https://github.com/phillipi/pix2pix
[2] 论文参考：https://arxiv.org/pdf/1611.07004v1.pdf

7.DeepWarp

不管你手里拿到了谁的照片，用 Ganin 等人开发的这个深度学习网络过一下，你就可以让他的眼睛动起来：你可以让他上下看、左右看，甚至绕着圈看…这么好用的表情包生产利器，赶紧收藏！

资料推荐：
[1] Demo：http://163.172.78.19/
[2] 参考论文：http://sites.skoltech.ru/compvision/projects/deepwarp/files/deepwarp_eccv2016.pdf
[3] 官方网站：http://sites.skoltech.ru/compvision/projects/deepwarp/

8. Pixel Recursive Super Resolution

谷歌大脑的研究者们训练了一个深度学习网络，根据一些分辨率极低的人脸图像来预测这些面孔真实的样子。从此马赛克什么的统统都走开！

资料推荐:
[1] 论文参考：https://arxiv.org/abs/1702.00783