【UFLDL】Ex1-SparseAutoencoder 稀疏自编码器

UFLDL系列教程是Andrew Ng教授在网站开设的深度学习课程，主要介绍了无监督特征学习和深度学习的一些相关知识，并且还配有相关的习题可以练习，是非常好的深度学习入门教程。该课程主要的内容有以下几大内容：

稀疏自编码器
矢量化编程实现
预处理：主成分分析与白化
Softmax回归
自我学习与无监督特征学习
建立分类用深度网络
自编码线性解码器
处理大型图像

这里将介绍第一部分内容稀疏自编码器（Sparse Autoencoder）。

1.神经网络与反向传播算法

首先构造一个最简单的神经网络，假设我们有一组训练样本 $(x,y)$ ，我们将构造一个非线性的假设模型 $h_{w,b}(x)$ ，它具有参数 $w$ 和 $b$ ，可以来拟合我们的数据，该模型如下所示：
简单神经网络模型
$x$ 是输入数据， $a_2$ 是整个模型的输出数据， $f()$ 是激活函数，一般采用sigmoid函数。圆圈来表示神经网络的输入，标上 $+1$ 的圆圈被称为偏置节点。最左边的一层（ $x$ ）为输入层，中间的一层（ $a_1$ ）为隐藏层，最右边的一层（ $a_2$ ）为输出层。由上图模型可以得到以下关系：
$z_1=w_1*x+b_1$
$a_1=f(z_1)$
$z_2=w_2*a_1+b_2$
$a_2=f(z_2)$
这样给这个神经网络一个输入 $x$ ，对应的输出就是 $a_2$ 。而整个模型的参数有4个，分别是 $w_1,w_2,b_1,b_2$ 。我们的目标是构建一个输出近似为 $y$ 的神经网络，因此接下来要做的就是为这个神经模型找到一组合适的参数，使对应的输出 $a_2$ 接近 $y$ 。

随机初始化参数
首先为模型初始化参数，根据教程中的说法，随机初始化的目的是使对称失效。如果所有参数都用相同的值作为初始值，那么所有隐藏层单元最终会得到与输入值有关的、相同的函数。
正向传播算法
根据上面初始化的参数值和输入值 $x$ ，计算输出 $a_2$ 。将损失函数简单定义为 $loss(a_2)=1/2||y-a_2||^2$ 。
反向传播算法
计算总的损失函数 $loss(a_2)$ 针对每个参数 $w_1,w_2,b_1,b_2$ 的偏导数。

$\frac{{\partial loss}}{{\partial {w_2}}} = \frac{{\partial loss({a_2})}}{{\partial {w_2}}} = \frac{{\partial loss({a_2})}}{{\partial {a_2}}} \cdot \frac{{\partial {a_2}}}{{\partial {w_2}}} = \frac{{\partial loss({a_2})}}{{\partial {a_2}}} \cdot \frac{{\partial f({z_2})}}{{\partial {z_2}}} \cdot {a_1}$

$\frac{{\partial loss}}{{\partial {b_2}}} = \frac{{\partial loss({a_2})}}{{\partial {b_2}}} = \frac{{\partial loss({a_2})}}{{\partial {a_2}}} \cdot \frac{{\partial {a_2}}}{{\partial {b_2}}} = \frac{{\partial loss({a_2})}}{{\partial {a_2}}} \cdot \frac{{\partial f({z_2})}}{{\partial {z_2}}}$

$\frac{{\partial loss}}{{\partial {w_1}}} = \frac{{\partial loss({a_2})}}{{\partial {w_1}}} = \frac{{\partial loss({a_2})}}{{\partial {a_2}}} \cdot \frac{{\partial f({z_2})}}{{\partial {z_2}}} \cdot {w_2} \cdot \frac{{\partial f({z_1})}}{{\partial {z_1}}} \cdot x$

$\frac{{\partial loss}}{{\partial {b_1}}} = \frac{{\partial loss({a_2})}}{{\partial {b_1}}} = \frac{{\partial loss({a_2})}}{{\partial {a_2}}} \cdot \frac{{\partial f({z_2})}}{{\partial {z_2}}} \cdot {w_2} \cdot \frac{{\partial f({z_1})}}{{\partial {z_1}}}$
更新权重参数
设置一个更新速率 $\lambda$ ，根据上述偏导数更新每个权重参数。
${w_1} = {w_1} - \lambda \cdot \frac{{\partial loss}}{{\partial {w_1}}}$

${b_1} = {b_1} - \lambda \cdot \frac{{\partial loss}}{{\partial {b_1}}}$

${w_2} = {w_2} - \lambda \cdot \frac{{\partial loss}}{{\partial {w_2}}}$

${b_2} = {b_2} - \lambda \cdot \frac{{\partial loss}}{{\partial {b_2}}}$

此时将得到新的一组权重系数，重复上面的步骤，计算新的输出和各系数的偏导值，直到最终结果 $a_2$ 与 $y$ 的误差在可接受范围内。

2.自编码算法和稀疏性

在前面的基础上，考虑建立一个如下图所示的自编码神经网络模型，该模型将尝试学习一个 $h_{w,b}(x)\approx x$ 的函数（自编码）。

自编码神经网络

与上面的简单模型相比较，这个自编码神经模型也是一个三层神经网络，其训练样本集合为 $\{x_1,x_2,...x_m\}$ ，因此对应的每一层的神经元个数有所增加。在计算最后的损失函数时，除了要约束输出值 $h_{w,b}(x)$ 与 $x$ 相近外，还要对第二层中神经元的激活度进行稀疏性约束。

稀疏性可以被简单地解释如下。如果当神经元的输出接近于1的时候我们认为它被激活，而输出接近于0的时候认为它被抑制，那么使得神经元大部分的时间都是被抑制的限制则被称作稀疏性限制。这里我们假设的神经元的激活函数是sigmoid函数。如果你使用tanh作为激活函数的话，当神经元输出为-1的时候，我们认为神经元是被抑制的。

第二层中第 $j$ 个神经元的激活度定义为 ${{\hat \rho }_j}=\frac{1}{m}\sum\limits_{i = 1}^m {{a_j} \cdot {x_i}}$ ，即第二层中第 $j$ 个神经元输出值 $a_j$ 与前一层中所有输入 $\{x_1,x_2,...x_m\}$ 的乘积和的均值。近似的加入一条限制，

${{\hat \rho }_j}= \rho$ ，其中 $\rho$ 是稀疏性参数，通常是一个接近于0的较小的值。我们选取一个合适的惩罚因子（KL相对熵）来实现这一稀疏性限制： $KL(\rho ||{\hat \rho }_j)$ 。该函数具有如下性质，当 $\rho ={\hat \rho }_j$ 时， $KL(\rho ||{\hat \rho }_j)=0$ ，且随着 $\rho$ 和 ${{\hat \rho }_j}$ 之间的差异增大而单调递增，如下图中，设定 $\rho =0.2$ 时，相对熵值 $KL(\rho ||{\hat \rho }_j)$ 随着 ${{\hat \rho }_j}$ 变化的曲线图。

相对熵值曲线图

综合以上两个约束，我们可以得到总体代价函数为：

$J_{sparse}(w,b)=J(w,b)+\beta KL(\rho ||{\hat \rho }_j)$

其中 $J(w,b)$ 是一般神经网络的代价函数（loss函数）。
根据上一节中的参数优化方法和反向传播算法，可以计算出此稀疏自编码器的参数 $w$ 和 $b$ 。

3.代码实现

此部分为matlab方法实现，代码可参考这里。下面将简单介绍一下代码中的一些参数设定和训练方法。

训练数据：10000个8*8的图片块，为了提高运算效率，将它们拉伸为10000*64的矩阵。
网络设置：输入层和输出层的神经元个数均为64，隐藏层的神经元个数为25。稀疏性参数 $\rho$ 为0.01， $\beta$ 为3。
参数设置：随机初始化3289个参数（(64+1)*25+(25+1)*64）。

sparseAutoencoderCost
根据初始化的参数计算出此时的总体代价函数cost值和所有参数的梯度值。
computeNumericalGradient
检验上面的梯度计算代码是否正确。
minFunc
使用minFunc中的L-BFGS方法来对模型参数进行优化，迭代次数上限设为400次。
visualization
计算出模型参数后，将第一层与第二层之间的25*64个参数显示出来，结果为25个6*6的图像块。

4.总结

最后的模型参数可视化结果有什么意义？
最后可视化的是第一层到第二层之间的参数结果。由于这里采用了10000组训练样本，样本量比较充足，因此效果比较好，能看出每一个8*8的图像块都有某种特定的纹理形状，也就是说稀疏自编码器可以自动提取图片的边缘特征。