[Deep Learning] 前馈神经网络FNN

本文是UPC Deep Learning Course总结翻译系列的第一篇，主要课程内容是前馈神经网络。讲义原文参考：Feedforward Nets and Conv Nets (lecturer: Dario Garcia)。

本文对人工神经网络（Artificial Neural Networks）的主要内容进行简要介绍，感兴趣部分可根据参考论文进行详细学习。

神经网络发展缘起 A Bit of History

人工神经网络领域的第一篇论文诞生于1943年，由Warren McCulloch和Walter Pitts发表1。在这篇论文中两人试图解释大脑是如何使用神经元这一简单的处理单元来计算高度复杂的行为，并设计了多输入权重的单个神经元模型来模拟人类神经元。

感知器 Rosenblatt’s Perceptron

1958年，Frank Rosenblatt基于McCulloch和Walter Pitts的神经元理论提出感知器算法2，感知器是一个将实值输入映射为0/1输出的二元分类器。
$f(x)= \begin{cases}1\ \ if\ w \cdot x+b>0\\ 0\ otherwise \end{cases}$
（其中，w是权重向量，b是偏移常量）

Rosenblatt在 “Mark I Perceptron”3中首次实践采用了感知器算法。“Mark I Perceptron”是一个由400个光敏感受器组成的视觉分类器，与512个步进电机相关联，输出8个神经元4。它仅仅包含一层可训练的参数，关于这一感知器的更多细节可参考5 6。

Rosenblatt在一系列出版物中承认他的感知器存在局限性，与此同时，Minsky和Papert出版了“Perceptrons: an introduction to computational geometry”一书，详细介绍了感知器的局限性7。 Minsky和Papert的工作对公众产生了巨大影响，尽管很少有人真正理解他们研究的本质。简言之，Minsky和Papert认为对于某些基本问题，例如异或问题，单层网络不能满足需求，然而当时并没有适合多层网络进行训练的算法，因此70年代人工神经网络的资金开始大幅减少直至80年代中期，在人工神经网络几乎被放弃之后，人工智能研究的重点开始转向“专家系统”，虽然这些系统在90年代也将遭遇自己的“人工智能寒冬”。

单层神经网络只能解决线性问题

反向传播和随机梯度下降 Backpropagation and Stochastic Gradient Descent

1974年，Werbos提出了针对多层神经网络训练的反向传播算法8。1985年，Rumelhart，Geoffrey E. Hinton和Williams重新发现该算法9并使其获得广泛关注，重新引发了人们对于人工神经网络的研究兴趣，“AI寒冬”时期结束。

要训练多层神经网络，首先从输入开始正向传递直至到达网络的最后一层，然后将神经网络预测的输出标签与标定正确的真实数据标签（the ground truth label）进行比较，并使用损失函数计算误差，通过找到损失函数最小化的最佳梯度（尽管是偏导数）更新网络最末端一层的权重。然后，应用链式规则反向传播，通过将前一层本地计算的梯度与向前传递的梯度相乘，得出那些不直接与输出层相连的隐层的输入值使得损失函数最小化的梯度，如下面的计算图所示。当需要手动推导计算反向传播算法时，简单实用的方法是绘制计算图（computing graph）再代入数值。
反向传播使用的链式规则

权重根据梯度方向进行优化，具体调整的变化值通常使用随机梯度下降（SGD）算法进行计算。 SGD使用整个数据集的子集（mini-batch SGD）而不是完整的数据集迭代估计优化的最佳方向，因为整个数据集可能非常大，因而是随机的梯度下降并不能保证每一步都是最优方向。除SGD算法外，还有其他替代方案可用于计算权重的变化值进行权重优化，我们将在“适应性学习方法”一节中进行介绍。

对感知器和反向传播算法等神经网络的系统学习有兴趣可进一步阅读其他相关文章资源10，包括反向传播算法的详细数学解释11、以一组数据为例计算反向传播算法各步骤执行结果12以及了解反向传播算法背后实现原理对解决梯度消失、死亡ReLU单元和RNN梯度爆炸等问题的帮助13，关于算法的一步步导数的数学推导解释可参考14，也可学习Stanford CS231n:Convolutional Neural Networks for Visual Recognition课程的相关内容。

伴随着新的训练方法的出现，ANN的研究重新活跃起来。1989年，Yann LeCun，现任Facebook人工智能研究院院长，使用美国邮政局提供的数据开发了一个数字识别系统15，首次展示了如何使用人工神经网络解决复杂的实际问题。LeCun的系统包含一层卷积神经元，基于1980年Fukushima提出的用于视觉模式识别的层次神经网络16，这是目前卷积神经网络的雏形。

激活函数 Activation Functions

人工神经网络的每个神经元使用激活函数来确定多个权重输入对应的输出结果。Rosenblatt的感知器使用最简单的二元函数，如果 $w \cdot x+b>0$ 则激活，输出1，否则不激活。如今我们可以选择其他更复杂的非线性激活函数，非线性激活函数使得神经网络能够对非线性模式进行学习。常用的激活函数包括17：
- Sigmoid函数: $f(x)=\frac{1}{1+e^{-x}}$

Sigmoid函数

Tanh函数: $f(x)=\frac{2}{1+e^{-2x}}-1$

Tanh函数
- 修正线性单元/整流线性单元(The Rectified Linear Unit): $f(x)=max(0,x)$

ReLU
目前，ReLU是大多数情况下默认使用的激活函数，它使用固定的斜率避免了梯度消失问题18，梯度消失的主要问题是当使用Sigmoid和Tanh这类将大范围的输入挤到[0,1]或[-1,1]小范围输出区间的激活函数时，随着神经网络误差的反向传播，前层的权重变化对输出结果的影响越来越小直至梯度为零终止学习。

然而，ReLU单位在训练期间可能“死亡”。例如，流过ReLU神经元的大梯度可能导致权重的更新使得神经元无法在任何数据上激活。如果发生这种情况，那么流经该单元的梯度将从该点开始永远为零。也就是说，ReLU单元在训练期间不可逆转地死亡，可以从数据流中被淘汰。例如，如果学习率设置得太高，可能会发现多达网络中40％的神经元可能“死亡”。通过适当设置学习率可以解决该问题。关于激活函数可进一步学习Stanford CS231n课程的相关内容19。神经网络的优化的研究思路可从激活函数优化入手，例如针对手机应用ReLU激活函数时对非饱和区进行优化以大幅提升神经网络性能。
- Leaky ReLU: $f(x)=max(0.1x, x)$
Leaky ReLU试图解决dying ReLU问题，当x <0时，函数不是零，而将具有小的负斜率（大约为0.01）。

Leaky ReLU

Maxout: $f(x)=max(w_1^Tx+b_1, w_2^Tx + b_2)$
ReLU和Leaky ReLU都是这一函数的特例，例如ReLU对应w1,b1=0。

训练参数 Training Parameters

训练次数(Epochs)和批次大小(Batch Size)
- Epoch对应训练集的所有图像都训练被一次的阶段，通常，ANN训练需要许多次，因为每个输入实例将网络参数指引向不同方向，并且网络能够在受到其他实例训练影响后对之前训练过的实例再次训练，从同一示例中不止一次地学习。通常，当epoch次数过多，网络最终将过拟合。过拟合可以通过训练集上的损失降低同时测试集上损失开始上升来识别。
- 批次大小定义了在单次网络前向和反向传播过程中的输入实例的数量，是网络能够“一起看到”的输入数量。批次大小的范围从1到完整数据集大小。较大的批次大小能够更快地训练，但可能会降低精确度20。批次大小太小可以通过损失函数的噪声21来识别，即某一批次的损失与下一批次是否显著不同。当批次大小越小时摆动越明显，当批次大小等于数据集大小时噪声损失函数方差最小（除非学习率太高，在这种情况下网络无法收敛）。最常用的批次大小为16和32。

在CIFAR-10数据集上训练小型网络时，典型损失函数随时间变化的示例

学习率
- 学习率定义了每一步权重优化时的调整比例。通常，使用完全导数（学习率为1）会导致过度修正，学习率太大可能使得神经元在定义的高维空间内产生大的“跳跃”，从而无法收敛。学习率太小会使朝着最佳权重调整的步幅太小，训练时间过长22。较好的选择是从较小的学习速率开始使权重调整走向正确的方向，然后逐渐增大以加快收敛。在训练期间跟踪的首先是loss，因为它在前向传递期间在各个批次上被评估。绘制不同学习率下loss随时间的变化可以帮助我们更好地了解学习率的选择。

关于大小学习率的行为对比
描绘不同学习率影响

其他参数
还有许多其他参数可能会影响学习过程，包括：
- 权重衰减：每次更新后，权重会乘以一个0到1之间的因子。这是一种正则化的式。
- 权重初始化：训练开始前的初始权重和偏差值bias是训练结果的关键。针对ReLU激活函数的神经元，其权重初始化通常使用随机数并使用 $sqrt(2.0/n)$ 来平衡方差23，而bias通常直接初始化为零。

w = np.random.randn(n) * sqrt(2.0/n)

动量：增加动量项能够使得SGD能够跳出局部最小值(local minima)和鞍点(saddle point)，加快在鞍点附近梯度缓慢处的前进。此外，增加动量项还能解决使用SGD时的Poor Conditioning：当损失函数在一个方向上改变很快而在另一方向改变很慢，使用普通SGD会出现在变化敏感方向上的锯齿跳动，这种情况在高维下很常见。动量项将先前权重更新的一小部分添加到当前权重更新中。如果两次更新在同一方向则会加快收敛，而更新在不同方向上时则会平滑方差，从而能够尽快结束这种情况下的曲折前进(Zigzagging)。

普通SGD（Vanilla update）:
$x_{t+1}=x_{t}+ learningrate * dx$
(梯度为损失函数下降的方向)

动量SGD（Momentum update）:增加速度值（velocity）初始化为0
$v_{t+1}=rho*v_{t}+dx$
(rho表示摩擦friction，通常设为0.9或0.99)
$x_{t+1}=x_{t}+learningrate * v_{t+1}$

Nesterov动量:
$x_{head} = x_t+rho*v_{t}$
$v_{t+1}=rho*v_{t}+dx_{head}$
$x_{t+1}=x_{t}+v_{t+1}$

关于如何优化这些参数的几个技巧，可参考Stanford cs231n超参数优化部分24。

适应性学习方法 Adaptative Learning Methods

SGD学习方法对学习率，动量，权量衰减等诸多参数的调参挑战促使了其他自动化调参学习方法的出现。其中，广受欢迎的方法有Adagrad，Adadelta，RMSprop和Adam。关于这些适应性学习方法的详细介绍参见梯度下降的优化内容25。
- Adagrad: 记录所有梯度的平方和，使得能够在较缓的维度上除以一个较小值进行加速而在较陡的维度上除以一个较大值从而减速。但由于梯度的平方和越来越大，步幅会越来越小，可能会停在鞍点处无法出来，因而Adagrad只适用于卷积层的学习。

$gradSquared += dx*dx$
$x_{t+1} = x_{t} + learningrate * dx / (np.sqrt(gradSquared) + eps)$
- RMSprop: RMSprop在Adagrad基础上进行小幅改动，对梯度的平方和进行衰减，衰减率（decay rate）通常设为0.9或0.99。
$gradSquared = decayrate*gradSquared+(1-decayrate)*dx*dx$
$x_{t+1} = x_{t} + learningrate * dx / (np.sqrt(gradSquared) + eps)$
- Adam: Adam结合了上述两种方法和动量项，最为常用。

不同算法在鞍点处的行为比较
不同算法在损失平面等高线上随时间的变化情况

正则化方法 Regularization Methods

网络的学习能力由其权重数量和深度定义。深层架构通常有数百万参数（AlexNet有60M参数，VGG16有138M参数），其中大量参数来自全连接层，因为卷积层通过权重共享能够大大减少它们的数量。一个具有4,096个神经元的全连接层加上输入层的4,096个神经元就将包含16M参数（4,096 x 4,096）。具有如此多参数的模型对任何训练数据集都很容易过拟和，因为它具有很强的记忆它的能力。为避免过拟合问题，用于深度架构的正则化方法被提出，常用的正则化方法包括：
- L1 / L2正则化：该方法试图通过对每个权重的平方增加惩罚（将 $\frac{1}{2} \lambda w^2$ 项加入到loss函数中）来避免权重尖峰值的影响。

L1/L2正则化

Dropout 26：该方法在训练期间以一定的概率设置部分神经元为0，在全连接层上简单有效。Dropping概率p通常设为0.5，但dropout会导致输出结果随机，因此在测试时，根据概率计算的平均结果我们需要将激活函数乘以dropping概率进行伸缩作为最终结果，或在训练时的dropout mask步骤直接除以dropping概率。
批标准化27：该方法对每批次输入的均值和方差进行标准化，通常用在全连接层之后。它既可以作为正则化方法，也可以解决与权重初始化相关的问题，同时也可以加速收敛。
层标准化28：该方法类似于批标准化，但均值和方差是在每层计算的。这对于批标准化不能直接应用的RNN和完全连接层十分有用，但不适用卷积层。它可以比批标准化更快地加速收敛。
Data Augmentation数据增量：对同一张图片进行随机剪切、伸缩旋转、水平变换、改变亮度对比度、透镜畸变等操作后作为输入数据对网络进行训练。

数据大小变换

数据色彩变换

Dropconnect：将权重矩阵中的某些值随机设为0，丢弃某些连接。
Fractional Max Pooling：采用不同的pooling区域并在测试时固定平均。
Stochastic Depth：在训练深度非常深的网络时随机丢弃某些层，在测试时再恢复全部使用。

批标准化和层标准化、Dropout方法以及数据增量本质都是通过在训练阶段增加某些随机性然后在测试时进行估计将随机性平均化从而实现正则化29。

参考文献