之前立的flag倒了，今天才来扶，可是有什么办法呢，生活就是要厚着脸皮活下去啊。

今天一起来整理第三课，这是来自face++孙剑老师的分享，因为正好我自己本身也是做计算机视觉的，所以听他的分享，我觉得也是把计算机视觉的一些历史的发展以及未来的趋势串了起来，感恩，所以也想要记录下来，和更多的人一起分享一下，准备好瓜和小板凳，表演就要开始了！！！

一、课堂回顾

视觉养眼——孙剑老师

孙剑，男，前微软亚研院首席研究员，现任Face++首席科学家、旷视研究院院长。自2002年以来在CVPR,ICCV，SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇，两次获得CVPR最佳论文奖(2009, 2016)，一句话，这是一个长相帅气而且智慧超群的老师。

分享内容

1、计算机视觉解决的基本问题

计算机视觉发展至今，其实主要解决的问题可以分为三类：Classification(分类)、detection(检测)和segmentation(分割)。它们分别从不同的处理粒度上对计算机图像进行处理，比如，分类是从整个image的层面进行操作，而detection则针对图像中的一些区域和位置，而分割则细化到每一个pixel，所以针对这三个问题，各自面临的挑战和算法的设计、连接等也会各有不同。但是这些问题的解决不是绝对独立的，而是可以相互促进，甚至说是协同解决的。

2、如何表示一张图像

计算机图像（在这里我理解的是整幅图像的特征）的表示，有许多种不同的方法，主要如下：

第一，Part Representation，比如一个人的图像，可以由各个部位如 head、arm、foot等部位一起表示，但是对结构性不好的物体可能不友好；

第二，pitorial structrue，基于图像本身的结构性特征表征；

第三，learning based，使用一些类似于adboost的方法，进行集成、提升学习，达到图像的整体特征表示；

第四，feature based，人工进行局部特征的抽取和表示、量化、编码，进行pooling之后送给分类器分类，但是人工设计特征的成本是比较高昂的，而且效率也比较低下；

第五，深度卷积神经网络，使用多层的神经网络，进行图像特征的自动选取，只要将图像经过深度神经网络，就可以获得图像的表示，现在已经可以实现端到端的学习。

因为使用深度卷积神经网络进行图像表示的时候，神经网络的结构还是需要人工设计的，而现在有一种趋势，就是连人工神经网络都采用程序自动化完成，大大提高了视觉处理的效率。图像的特征表示是接下来视觉处理的核心，在很多实际工程的实践中，我们其实也会慢慢地体会到，对算法、模型效果影响最大的就是特征工程的构建，无论采用何种表示方式，这种方式都一定要尽可能贴切地还原图像本身的位置、语义等特征。

3、现在神经网络设计原来越深，可以解决哪些问题，机器学习的核心问题是什么

近年来，常用的一些模型，其趋势就是越来越深。比如，Alexnet（8层）、VGG（19层）、GoogleNet（22层）、ResNet（152层），而随着这些网络越来越深，也是为了解决深度学习的魔咒，比如在数据、计算以及初始化上有帮助。因为现在计算机的计算能力已经大幅度提升，而且还在不断提升，而现阶段深度学习起效果的直接因素就是数据量以及网络的深度，可以充分学习和记忆，以达到智能的目的。

一直以来，机器学习都面临一些挑战，其核心的问题在于：

（1）表示：“脑容量”够不够，是不是可以hold住这些数据。对于一个算法、模型而言，考虑其天花板是很重要的，只有在天花板之下，进行最大规模数据的操作，所做的一切工作才具有意义，否则就很有可能做一些无用功；

（2）训练：在训练之后能不能解决这个问题并找到该问题的最优解，这都是训练过程中的重点；

（3）推广：对每一个算法和模型而言，我们都希望它可以解决尽可能多的问题，而不仅仅只是局限于当前问题，这就涉及到模型的泛化能力，也就是模型的推广能力，推广又可以分为强推广和弱推广。

4、计算机视觉的变革及计算机检测的发展

计算机视觉的发展其实已经有很长一段时间，期间，随着计算机技术、互联网时代的到来，在计算能力和数据量的积累发生改变之后，计算机视觉也取得了很大的进步的发展，现在在监测和分类问题的处理上，已经在某些应用的分类准确率上达到人的高度，而且市场上也已经有了相应的落地的应用。比如，常见的有机场、火车站的刷脸进站、智能零售店的刷脸验证等，仔细观察的话，其实计算机视觉离我们已经越来越近。

孙剑老师也在课上梳理了计算机视觉算法、模型的变革，并指出其总体趋势就是从手工设计特征到现在利用深度网络提取特征并且在将来可能也让机器自动设计网络。同时，他还对目标检测系列算法，如RCNN、SPP-NET、FAST-RCNN、FASTER-RCNN R-FCN、MASK-RCNN、SHUFFLENET等串讲了一遍，因为这其中有很多的论文，孙剑老师也参与其中，所以感觉他对于这些算法之间的改进把握比较精准，我们也可以从中借鉴这种创新改进的精神。

5、Face++的计算机视觉

Face++是一个很成功的视觉创业公司，孙剑老师也针对其公司对计算机视觉的业务布局以及下一站的规划进行了概述。

首先，他介绍了face++'s brain，这是一个可以进行神经网络计算的平台，开放给众多AI、视觉爱好者及有需要的人，可以完成人脸检测的计算，进而应用到很多场景，比如FaceID在线身份检测、滴滴出行、租房认证、马拉松人脸检测、刷脸支付等。

其次，他提出下一步的规划在于城市大脑、公共安防、智能商业、智能机器人等，可以预见，这些其实也是整个AI行业共同追逐的方向和未来。

6、相关问题

1、深度学习的可解释性不强，容易被欺骗？

深度学习就像一个黑盒子，所以在很多场景下，它为什么行以及它为什么不行，都不一定是可解释和可严格推导的。所以也就有人提出了，深度学习的模型容易被欺骗，就是说当有人给算法一个对抗样本时，算法可能就不起效果了。针对这种问题，其实过去深度学习算法也存在欺骗，只不过当时可能没有人去关注，所以也就没有受到重视，而当现在深度学习越来越普遍，被使用的几率变大了之后，这个问题就被凸显了。虽然目前深度学习带有强不可解释性，但不可否认的是，在很多问题上它也确实起作用，对于对抗问题，在不断地探索和发展中，也终将会得到解决的。

2、视频时代，计算机视觉在相关方面有没有什么进展？

在视频方面，未来的方向是理解、追踪、描述，目前比较热门的是给一段视频，分类里面正在发生的事情。它的基本原理是把视频里的每一帧使用计算机视觉的方法，进行分类之后，加和后再平均，然后给出一个定论。

当前视频处理可能还是比较局限的，因为对于一段视频而言，帧与帧之间本质上是相似和关联的，但目前学术界和工业界对于这种帧之间的上下文考虑还是比较少，或者说缺乏有效的机制去挖掘去理解不同帧之间的关联。

3、未来3-5年，视觉落地的场景

未来视觉落地的场景会更加贴近生活，尤其是一些数字化的场景，可能会落地更快，尤其是一些摄像头密度较高的地方，可考虑的落地场景更丰富。主要考虑的就是发生周期的长短以及适不适合，比如未来无人车以及物流机器人应该是比较有希望和想象空间的。

后话：

就计算机视觉而言，其实这是一个很有趣的领域，很多的论文想法都很不错，可能会激发你无穷的想象空间。如果未来我们想要成为一个视觉相关的产品狗，那么应该保持对这个领域的探索和关注，比如，关注一些比较前沿的公司，像商汤、face++、云从科技、依图科技、格林深瞳、陌上花科技、大疆创新等，可以尝尝去看看他们的新产品，使用一下，感受一些。然后也可以看一些CVPR的论文，你不一定要弄懂论文每一个公式的推导，可以看一下论文的创意，然后结合当前对计算机的计算能力以及各方面的技术成熟度，结合生活的场景，思考一下这个论文的创意可以做成哪些产品，放到我们的生活里，会不会做的比当前的方法好。我会专门用一个笔记，专门记录自己平时看论文的“胡思乱想”，慢慢地你就会发现，随着看论文和不断关注的过程中，对某些算法的理解和产品的设计逻辑，以及如何结合技术和用户等问题，就会不断有新的理解。虽然不可能每个想法都能实现，或者都一定可行，但这个学习的过程会帮助你理解和思考很多东西，所以还是要坚持做这些工作，而且说实话，可以坚持做自己喜欢的事是一件很幸运也很幸福的事，看论文也可以很享受，所以加油吧！

北大AI公开课第三课--视觉计算变革与挑战by Face++孙剑