最新！干货满满的深度学习应用综述

文章目录

0 写在前面
1 引言
2 DL的基本架构
3 DL的高级架构

AlexNet
Visual Graphic Group Net
GoogleNet
ResNet
ResNeXt
RCNN (Regions with Convolutional Neural Network)
YoLo
SqueezeNet
SegNet
GAN

4 DL的特点
5 使用DL的动机
6 DL与经典ML的区别
7 DL与传统学习的区别

特征提取与表示(Representation)
泛化与多样性
数据准备
模型训练与执行时间

8 DL的应用

生物影像分类(Biological Image Classification)
图像处理与分类(Image Recognition and Classification)
语义分割(Semantic Image Segmentation)
合成孔径雷达(Synthetic Aperture Radar)
遥感(Remote Sensing)
人物再识别(Person re-identification)
物体检测(Object Detection)
Deep Vision System
Human Activity Recognition
Parking System
Plant Classification
声学建模(Acoustic Modeling)
文本分析与识别(Document Analysis & Recognition)
Text/Document Summarization
语音识别(Speech Recognition)
Writer Identification
关键词定位(Word Spotting)
Voice Activity Detection
Adaptive Testing
汽车行业(Automotive Industry)
大数据(Big Data)
股票市场分析(Stock Market Analysis)
Data Flow Graphs
医学应用(Medical Applications)
Mobile Multimedia
电力系统故障诊断(Power System Fault Diagnosis)
无线网络(Radio Wireless Networks)
智慧城市(Smart City)
社会应用(Social Applications)

9 DL的挑战
9 结论与未来展望

0 写在前面

关于深度学习的综述有一篇较为经典的2015年综述Deep Learning in Neural Networks - An Overview，这篇从技术本身层面或者说从神经网络本身出发对深度学习做了概要。而在最近2019年的综述A Survey of Deep Learning and Its Applications - A New Paradigm to Machine Learning中，出于今年深度学习的热潮，该篇综述更多地从宏观应用层面介绍了深度学习目前的研究现状与挑战，笔者纵览其文，在此加以个人的理解转述之。

1 引言

深度学习(以下简称DL)其实可以说是传统机器学习(以下简称ML)的一种纵向延伸，它的学习过程同样包含训练和测试两个阶段，即文中的training phase (includes labeling of large amounts of data and determin- ing their matching characteristics )和 inferring phase(deals with making conclusions and label new unexposed data using their previous knowledge)。但不同的是，经典的ML是需要人为的设计特征或者进行特征提取，然后再进行学习分类任务，而DL是能够自动地学习或者提取特征并进行分类任务，这就完成了一个所谓end-to-end的过程，经典ML与DL在进行任务处理的区别如下：
在这里插入图片描述
这里提到了自动学习提取特征就顺便需要提到表示学习(representation learning)，表示学习的定性理解可以参考本人博客表示学习(representation learning)的初印象。而在该篇综述中表示学习理解如下：

Representational learning includes the set of methods that helps the machine to take the raw data as input and determines the representations for the detection and classification purpose

而DL的理解则是：

Deep learning techniques are purely such kind of learning methods that have multiple levels of representation and at more abstract level

简单理解就是表示学习是用于确定需要或者重要的特征即representations，而DL则是拥有多层representations的经典机器学习，DL的多层representation可以从表示学习那里得到(本人的理解)。这种mutli-layers的representations就包含了用于特征提取的许多非线性单元，在deep learning with python一书中也提到DL与ML的不同就是以一种新的更高级的(hierarchical)的方式去表示representations，这也是其deep的地方，所以DL有时候又叫deep structured learning或者hierarchical learning。因此综述中也总结了DL方法中的两个关键因素：

Nonlinear processing in multiple layers or stages.
Supervised or unsupervised learning.
第一个因素重点在于非线性和多层，第二个则跟传统的机器学习类似。

2 DL的基本架构

常见的基本架构包括以下几种：

自编码器(Auto-Encoder, AE)
卷积神经网络(Convolutional Neural Network , CNN)
受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)
深度堆叠网络(Deep Stacking Network, DSN)，又叫深度凸网络(deep convex network)
Long Short Term Memory (LSTM)或Gated Recurrent Unit
(GRU) Network
循环神经网络(Recurrent Neural Network, RNN)
以上除了DSN之外都可以在花书中找到详细的理论知识，不同于一般的深度网络，DSN包含几个独立的深度网络，每个网络都有相应的隐藏层，其工作原理可以表示如下：

这几种基本结构的发展年限如下图：

而近几年比较流行的基本架构则是LSTM和RNN。

3 DL的高级架构

高级架构简单陈列如下，如需要更多的了解可以针对每个架构拓展。

AlexNet

由包括三巨头之一Geoffrey Hinton在内的研究团队开发

Visual Graphic Group Net

即VGG

GoogleNet

比VGG快，有22层而VGG19层

ResNet

兼容性好：The main benefit of ResNet is that many residual layers are capable of forming a trained network

ResNeXt

基于ResNet但更好的新架构

RCNN (Regions with Convolutional Neural Network)

It depends upon designing a bounding box over the objects in the image and identifies the object given in the image

YoLo

SqueezeNet

在低带宽下该架构是最有力的。

SegNet

该架构最适合处理图像分割问题(the image segmentation problems)。

GAN

这是一种比较独特的网络架构，也是近几年比较流行的一点

4 DL的特点

关于DL的特点原综述陈列了很多点，总结如下：

纯粹基于大于两层(即deep)的神经网络
有更强的学习能力，能更高效地利用数据，尤其在大数据领域有着更强的识别能力
能够从数据中学习如何进行特征提取或者能从高维数据中进行特征提取，即所谓的表示学习相关，并且通过高级抽象，这些网络可以提取复杂的特征。
更好地解决高强度计算任务，不需要太多的手动工作就能得到较为优化的结果
深度学习网络依赖于网络结构、激励函数以及数据表示形式等特点
能够使用较少的参数描述各种各样的特征(feature)，不依赖先验的数据或知识
深度神经网络有着独特的数据表示形式，甚至对于大量未标记的数据有着新的表达方法
这些特点使得DL在各种领域都取得较大进展，如决策融合( decision fusion)，车载移动设备(on-board mobile devices)，迁移学习，类不平衡问题(class imbalance problems)和人类活动识别等新领域。

5 使用DL的动机

深度学习起于手写数字识别，而CNN已经在这方面取得了巨大成功。以下是使用DL的一些动机：

DL能够促进AI在企业中的运用，DL也是AI最基本的方法
当深度模型开始取代传统方法时，尤其是在手写识别、医疗保健、图像分类、语音识别和自然语言处理方面，深度神经网络在4到5年前就取得了卓越的成就。
对于大数据的趋势下，深度学习方法将更加准确
英伟达，YES！
元学习(meta-learning)、强化学习以及对抗合作学习(Adversarial and cooperative learning)将是未来的重点

6 DL与经典ML的区别

愿综述列出了很多点，主要有：

DL的硬件要求更高，训练速度更慢
DL适用于更大的数据，而经典ML适用于较少的数据
DL能够自己学习特征提取，并且其工作原理很难去解释或理解

7 DL与传统学习的区别

这里的传统学习(Conventional Learning)应该就是泛指比如经典ML的一类方法，其区别体现在以下几个方面：

特征提取与表示(Representation)

跟上文提到的一样，DL能够从原始数据中学习出易于分类识别的特征，而传统学习需要人为设计特征

泛化与多样性

既然能够自行学习特征，那么DL的泛化性显然更高

数据准备

还是因为能够自行学习特征，因此在准备数据方面DL不需要太过繁琐甚至就是不需要。

模型训练与执行时间

为了防止过拟合，DL需要更多的数据，相应地执行时间会很长，通常需要GPU加速。

8 DL的应用

DL的应用十分广泛，如下图：
在这里插入图片描述
以下将逐条简介，更多细节比如研究过程和原理还需要参考原综述以及其他资料。

首先是图像处理方面，

生物影像分类(Biological Image Classification)

这是近几年以及未来的一个重点方面

图像处理与分类(Image Recognition and Classification)

语义分割(Semantic Image Segmentation)

合成孔径雷达(Synthetic Aperture Radar)

合成孔径雷达可以参考百科，因其较强的地表穿透能力，可用于灾害监测、环境监测、海洋监测等方面，与DL的结合将能更好地提高识别能力

遥感(Remote Sensing)

遥感参考百度百科，即对远距离目标所辐射和反射的电磁波信息，进行收集、处理，并最后成像

人物再识别(Person re-identification)

Person re-identification is the task of associating images of the same person taken from different cameras or from the same camera in different occasions。即识别不同相机下或者不同场景相同相机下的同一个人，可以用于智能监视系统。

物体检测(Object Detection)

Deep Vision System

Human Activity Recognition

比如穿戴机器人常碰到的步态识别

Parking System

即自动驾驶的泊车方面，主要使用图像处理

Plant Classification

即植物分类

以下是语音、语义以及文本等方面

声学建模(Acoustic Modeling)

包含语义识别(speech recognition)等方面

文本分析与识别(Document Analysis & Recognition)

Text/Document Summarization

语音识别(Speech Recognition)

包含不同国家语言甚至方言等

Writer Identification

即识别不同的写作风格，或者说写出多种风格的文字

关键词定位(Word Spotting)

又叫keyword spotting，比如找到扫描图像中的所有查询词

Voice Activity Detection

比如分离出语音信号的噪声等

以下是其他的方面

Adaptive Testing

暂不分析

汽车行业(Automotive Industry)

大数据(Big Data)

这是前几年比较火的一个方向

股票市场分析(Stock Market Analysis)

即类似于统计学预测股票的涨跌

Data Flow Graphs

暂时不作分析

医学应用(Medical Applications)

包含很多方面，例如医学成像，图像识别、理解、分割与融合(image fusion)，计算机辅助诊断，可用于医疗保健、生物影像分类(Biological Image Classification)等

Mobile Multimedia

即在移动终端上使用深度学习引擎

电力系统故障诊断(Power System Fault Diagnosis)

无线网络(Radio Wireless Networks)

比如使用自编码器增加通信的准确性与稳定性

智慧城市(Smart City)

这是一个比较综合的应用，包含物体检测、人脸检测各个方面

社会应用(Social Applications)

比如情绪分析(the sentiment analysis)等

9 DL的挑战

尽管DL方法非常好且精确，但是仍然有一些挑战或者说缺点需要克服，如下：

需要高算力以及相应的高性能GPU，对于复杂问题需要投入的成本高昂
没有强力的理论支持，在上一节原综述也提到 A detailed investigation in various complex deep neural network mod- els 是一项挑战，也可以理解为神经网络的可解释性
需要大量的训练数据
容易陷入局部最小值问题
很难找到其拓扑结构和训练参数
深度网络更像是一个黑箱网络，比较intractable
另外在上一节中也提到与模糊逻辑的结合也是DL的一个挑战点

9 结论与未来展望

总结来看，首先需要注意作为DL的两个关键元素hierarchy of layers和 the supervision in learning。此外需要记住DL像是ML的一个延伸，即深度学习依赖于机器学习中现有算法(对应 the supervision in learning)的优化及其在多层次处理方面(对应hierarchy of layers)的创新。然后就是深度学习应用的领域将会很广，比较热门的有数字图像处理和语音识别(speech recognition)等方面的应用。最后，DL这门科学才刚刚起步，未来几年将会在越来越多的方面，比如NLP、遥感和医疗保健，迎来大爆发。
DL未来的展望主要包括：

如何适应复杂、非静态、含有多种噪声的场景
如何通过提升特征的多样性来提高网络的性能
非监督学习在线环境的兼容性，比如深度强化学习技术
发展高级深度生成模型(deep generative models with superior )以及高级时间建模能力用于参数语音识别系统(advanced temporal modeling abilities for the parametric
speech recognition system)。
在视频追踪与目标检测方面使用深度网络，甚至应用于全自动驾驶

johnjim0816

发布了95 篇原创文章 · 获赞 30 · 访问量 4万+

私信关注