训练神经网络失败的原因（上）

原文链接
根据原文讲述原因大致如下：

1. 没有对数据进行归一化

神经网络中对数据进行归一化是不可忽略的步骤，网络能不能正常工作，还得看你有没有做归一化。这个步骤是非常重要的，深度学习领域的人都很清楚，因此论文中也很少有提及到。但是对于初学者来说，很容易在这里栽跟头，比如说我。

一般来讲，归一化就是减去数据平均值除以标准差，通常是针对每个输入和输出特征进行归一化。

需要归一化的首要原因就是大部分神经网络都是假设输入数据和输出数据都服从均值为0方差为1的正态分布。这些假设在深度学习文献中随处可见，从权重初始化，激活函数到训练网络的优化算法。

未经训练的神经网络输出值大致在-1到1。如果你希望输出其它范围内的值（例如像素值为0到255的8位RGB图像），你就会遇到一些问题。当开始训练这个网络的时候就会很不稳定，因为当预计值为255时，它将产生-1或1的值。这在大多数用于训练网络的优化算法中是错误的。因为这会产生一个很大的梯度，训练误差将会越来越大。某种程度上，如果你的训练正常的话那么开始的几个训练阶段也是浪费的，因为网络学习的第一件事就是将输出值缩放并将其转换为大致所需的范围。如果你归一化了你的数据，那么这些问题将不存在。

一般来说，神经网络的特征尺度也将决定它们的重要性。如果你有一个很大值的输出特征那么与其它特征相比它会产生很大的误差。同样，大的特征尺度将主导网络，并导致后面网络会出现很大的改变。对于这个原因，仅仅使用神经网络库自动归一化是不够的，它们是在每个特征的基础上盲目的减去均值和除以标准差。你可能有一个输入特征范围是0.0到0.001，这个特征的范围很小，因为它是一个不重要的特征，或是因为和其它特征相比它有一些更小的单元。同样，要小心那些范围很小的特征（标准差接近或精确为零)，如果对它们进行归一化，这些会产生NaNs的不稳定性。认真想想你的每个特征代表了什么，并考虑归一化使所有输入特征的“单位”相等的过程。

2.没有检查结果

你将网络训练了几个epoch，并且你可以看到误差逐渐消失。但这并不意味这是一次成功的训练。代码可能仍然存在问题，可能是数据预处理，训练代码甚至是推理错误。误差的消失并不意味这你的网络能够真正学到有用的东西。

对于每个阶段的数据检查是非常重要的，你可以使用一些方法去显示这些结果。

如果网络能够正常运行的话，是有许多方法可以检查这个网络。其中一部分是找出训练误差的真正含义。打印应用于训练集中数据的网络结果，与真实值相比如何？你可能在训练的时候看到误差从1.0降到了0.01但是结果仍然不稳定。如果它在训练集上工作，那么请在验证集上检查是否仍然适用于以前未见过的数据。此处建议是你可以看看网络中的一切结果，而并不是只有网络出错时才来查看。

3.没有预处理数据

通常我们所知的事物数据是相似的，可能会有大量不同的数字表示。以角色动画为例，如果我们使用角色关节相对于动作捕捉中心的三维位置来表示我们的数据，那么在一个位置执行一个动作，或者面向一个方向，可能会有大量不同的数字表示在不同的位置执行相同的运动，或者面向不同的方向执行相同的运动。我们需要做的是要表示出这些数据的差异性，即相似的动作可以用相似的数据表示

神经网络对输入数据做了一些基本的假设，其中一个重要的假设就是数据在空间中有一定的连续性。对于大多数空间，在两个数据点中间的点某种程度上是这两个点的混合以及这两个临近的数据点一定意义上代表了“相似”的东西。在数据空间存在很大的不连续性会导致学习变的很困难。

另一种数据预处理的方式是减少数据的冗余。例如，如果训练人物动画数据的神经网络必须为每个位置和方向的人物学习相同的一组动作，那么网络的许多容量正在被浪费，并且很多学习过程被重复。

。
下半部分