《机器学习》赵卫东学习笔记第11章深度学习（课后习题及答案）

1 深度学习的提出背景是什么？

深度学习是一种利用复杂结构的多个处理层来实现对数据进行高层次抽象的算法，是机器学习的一个重要分支。传统的BP算法仅有几层网络，需要手工指定特征且易出现局部最优问题，而深度学习引入了概率生成模型，可自动地从训练集提取特征，解决了手工特征考虑不周的问题。而且初始化了神经网络权重，采用反向传播算法进行训练，与BP算法相比取得了很好的效果。

2 讨论大数据技术对深度学习的促进作用。

除了组织存储的数据类型的不同，数据的绝对量是促进深度学习工具和技术发展的一个关键因素。新兴公司积累了足够的数据后，技术才能更好地发挥作用。例如Affectiva的前身是麻省理工学院媒体实验室在2009年推出的一个研究项目。最初，该公司的研究人员试图用一对夫妇的视频“训练”面部识别软件，用该软件解释实验者的情绪状态。多年来，Affectiva为数以百万计的人像镜头建立了视频库。现在，McDuff的机器学习算法能够更加准确地评估人的情绪。

3 比较深度学习主流的几种学习框架。

Torch：Lua语言编写的自带API的深度学习计算框架，支持机器学习算法，核心是以图层的方式定义网络，优点是包括了大量模块化的组件，可以快速进行组合，并且具有较多训练好的模型，可以直接应用。

TensorFlow：用Python API编写，对应的教程、资源、社区贡献都较多，支持深度学习、强化学习和其他算法的工具，支持数据和模型的并行运行。

Caffe：这是一款工业级深度学习工具，将Matlab实现的快速卷积神经网络移植到了C和C++平台上。不适用于文本、声音或时间序列数据等其他类型的深度学习应用。

Keras：是一个基于Theano和TensorFlow的深度学习库，具有较为直观的API，这可能是目前最好的Python API，未来可能会成为TensorFlow默认的Python API，更新速度较快，相应的资源也多，收到广大开发者追捧。

4 描述卷积神经网络的结构。

卷积神经网络是一种稀疏的网络结构，其中卷积层和子采样层是特征提取功能的核心模块。卷积神经网络采用梯度下降的方式，应用最小化损失函数对网络中各节点的权重参数逐层调节，通过反向递推，不断地调整参数使得损失函数的结果逐渐变小，从而提升整个网络的特征描绘能力，使卷积神经网络分类的精确度和准确率不断提高。

5 如何防止卷积神经网络的过拟合问题？

防止过拟合的方法有三类：人为增加数据集；正则化；Dropout。在原有在训练图像识别的深度神经网络时，使用更多的图像数据集训练的模型会使训练的网络具有更好地泛化性能，减小过拟合。正则化的作用是调节模型复杂度对损失函数的影响，若权重衰减很大，则复杂的模型损失函数的值也就大。使用dropout是在每次训练过程中随机将部分神经元的权重置为0，即让一些神经元失效，这样可以缩减参数量，避免过拟合。

6 简述循环神经网络模型的工作原理。

循环神经网络是一种对序列数据建模的神经网络。循环神经网络中一个当前神经元的输出与前面的输出也有关，网络会对前面的信息进行记忆并应用于当前神经元的计算中，即隐藏层之间的节点是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，循环神经网络可以对任何长度的序列数据进行处理。但是在实践中，为了降低复杂性往往假设当前的状态只与前面的几个状态相关。

7 常见的卷积神经网络有哪些？

LeNet：LeNet网络是较早出现的卷积神经网络，在这个网络出现之后各类神经网络不断涌现。

AlexNet网络：这是最早的现代神经网络，这个模型证明了CNN在复杂模型下的有效性，使用GPU使得训练在可接受的时间范围内得到结果，推动了有监督深度学习的发展。

VGG网络：VGG的一个特点是层数多。VGG是5个group的卷积2层全连接层用于提取图像特征、一层全连接层用于分类特征。