深度学习是一门比较年轻的研究方向，从机器视觉到语音识别，以及自然语言识别等领域都有它的身影。说实话，喵哥此前只是知道有这个学科，但是并不清楚它到底是什么，怎么使用它。其实现在也是一无所知，但是我越发觉得深度学习是我们今后特别需要的专业，今天写下这篇综述性的文章，希望可以对以后学习有所帮助。

深度学习是由Hinton等于2006年提出【1】。首先提出的是自动编码的多层次结构模型，后来在限制玻尔兹曼机（Restricted Boltzmann Machine，RBM）的基础上拓展出了深度置信网络（Deep Belief Network，DBN）。它是一种无监督性逐层训练算法，在优化并解决深层结构问题方面有很大改善【2】。另外，SERMANET【3】提出了卷积神经网络（Convolutional Neural Network，CNN）——一个较为直观的多层结构网络学习算法，利用图像空间信息减少训练参数数量从而在提高模型训练方面有了很大的改善。深度学习通过分层式结构的多层信息处理来进行非监督的特征学习和图像分类，模拟人脑学习和分析的能力，形成一个神经网络结构【4-6】。它可以像人脑一样对外界输入事物进行分析和理解，该网络优势被广泛应用于图像、文本、声音等研究领域。

图像分类是要解决图片中是否包含某类物体的问题，对图像进行特征描述是物体分类的主要研究内容。一般说来，物体分类算法通过手工特征或者特征学习方法对整个图像进行全局描述，然后使用分类器判断是否存在某类物体。应用比较广泛的图像特征有SIFT，HOG，SURF等。这些对图像分类的研究中，大多数特征提取过程是人工设计的，通过浅层学习获得图像底层特征，与图像高级主题间还存在很大的“语义鸿沟” 。而深度学习利用设定好的网络结构， 完全从训练数据中学习图像的层级结构性特征，能够提取更加接近图像高级语义的抽象特征，因此在图像识别上的表现远远超过传统方法。

卷积神经网络在特征表示上具有极大的优越性，模型提取的特征随着网络深度的增加越来越抽象，越来越能表现图像主题语义，不确定性越少，识别能力越强。AlexNet 的成功证明了CNN 网络能够提升图像分类的效果，其使用了 8 层的网络结构，获得了 2012 年ImageNet 数据集上图像分类的冠军【7】，为训练深度卷积神经网络模型提供了参考。2014 年 GoogleNet 另辟蹊径，从设计网络结构的角度来提升识别效果【8】。其主要贡献是设计了 Inception 模块结构来捕捉不同尺度的特征，通过 1×1 的卷积来进行降维。2014 年另外一个工作是 VGG，进一步证明了网络的深度在提升模型效果方面的重要性【9】。2015 年最重要的一篇文章是关于深度残差网络( ResNet) ，文章提出了拟合残差网络的方法，能够做到更好地训练更深层的网络【10】。后续分类网络的发展如 Google 的 inception 系列，2017年的主流模型比如获得最佳论文奖的 DenseNet 等都借鉴了ＲesNet 的设计思想。本文的模型也是基于ＲesNet 的基础网络设计的。

虽然深度学习在图像分类和目标检测上取得了巨大的进步，但仍有人质疑深度学习在工程中的应用效果。因为它无法很好地解决图像识别的另一大任务——图像分割。图像分割与图像分类的最大区别是图像分割要实现对每个像素的分类。而真正解决这一问题的是 2015 年 CVPＲ的一篇图像语义分割的文章【11】，自此以后一系列的用于图像分割的改进神经网络模型被提出，从 FCN，DecovNet，DilatedNet到 DeepLab，PSPNet，分割精度进一步提升。