[论文学习]2——Variable-Wise Weighted SAE (VW-SAE) 可加权变量堆栈自编码器

《Deep Learning-Based Feature Representation and Its Application for Soft Sensor Modeling With Variable-Wise Weighted SAE》
论文地址：https://ieeexplore.ieee.org/document/8302941

本文将论文的第二部分 II.DEEP LEARNING AND SAE 进行了学习，更准备的说应该是翻译了一遍。该文主要是为了方便自己毕设的学习和理解，因为

在翻译过程中学习VM-SAE由来的思想。

A.可变加权AE（VM-AE）

B.可变加权SAE（VM-SAE）

C.基于VW-SAE的软测量

分层预训练可以帮助深度学习从低级别的数据中提取高级特征。因此，它可以通过层次结构在更高层次上学习更复杂和抽象的特征。然而，对于软测量应用，由于无监督的预训练机制，这些特征可能包含许多与目标输出无关的信息。为了解决这个问题，我们引入了监督和半监督预训练策略被用在更好的通过VW-SAE模型逐层提取相关特征。新的深层网络由多层可变加权AE（VM-AE）组成。因此，我们首先描述VW-AE模型。

A.可变加权AE（VM-AE）

分层预训练用于为SAE提供良好的初始权重。这是通过最小化整个输入空间上的训练样本的重建误差实现的。然而，进一步考虑图1 中的AE。在原始的AE中，它的目的是在输出层重建输入数据。换句话说，重建的x~ 应尽可能的与原始的x相似。因此，在整个dx维度内应该最小化重建误差||x-x~||^2。如果我们在每个维度上展开这个术语

很容易看出，每一个变量的重建都应该保持准确为了保持整个重建误差小。对于软测量应用，并非所有变量都与目标输出相关。此外，不同的变量对目标变量的影响也不同。虽然变量向量的某些维度元素与输出变量的关系可能很小，但它们在AE的重建中仍然与其他维度变量起着相同的作用。因此，该变量的维度也应该被准确地重建。然后，提取的隐藏特征具有与输出预测无关的信息。由于预训练是逐层进行的，因此该变量的信息被前向传播到高级特征层。因此，在这些高级特征中存在无关信息。这主要是由输入的无监督重建引起的。

扫描二维码关注公众号，回复： 4166456 查看本文章

一个合理的AE应该更加重要在提取与输出预测高度相关的特征。因此，对于那些与输出相关的变量的重建应该更加准确，反之亦然。为此，有必要在重建对象中对变量的不同维度赋予不同的权重。因此，基于AE模型变量权重被计算。为了训练VW-AE，应首先使用标记数据来获得可变权重。假设标记的训练数据为 $\begin{Bmatrix}X_{l},Y_{l} \end{Bmatrix}=\begin{Bmatrix}(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{j},y_{j}),...,(x_{N_{l}},y_{N_{l}}) \end{Bmatrix}$ ,其中 $N_{l}$ 是标记样本的数量。变量的重要性由它们与目标变量的相关性决定。因此，通过标记数据计算第d个变量的相关系数

其中 $X_{l(d))}$ 标记数据的第d个变量的集合集，也就是说 $X_{l(d)}=\begin{Bmatrix} x_{1(d)},x_{2(d)},...,x_{Nl(d)} \end{Bmatrix}$ 。协方差和方差计算如下

其中 ${\bar x_{(d)}}$ 和 $\bar{y}$ 分别是第d个输入和目标变量的平均值。如果相关系数的绝对值很大，则表示该变量与目标变量更相关。因此，它应该被赋予较大的权重值，反之亦然。第d个输入变量的权重应该是单调递增函数，其相关系数为绝对值。本文中使用的变量权重被设置为

利用可变权重，可以以监督或半监督的方式训练VW-AE，这取决于训练数据集的类型。如果标记了所有训练数据，然后训练过程是通过最小化标记数据的可变加权重构误差，以监督的方式进行训练。

其中 $\Delta$ 是 $d_{x}\times d_{x}$ 对角矩阵，其元素是 $\lambda _{d},d=1,2,...,d_{x}$ 。除了标记数据之外，训练数据集通常仅包括输入部分的未标记数据。将未标记的数据表示为 $\begin{Bmatrix} X_{u} \end{Bmatrix}=\begin{Bmatrix} x_{1},x_{2} ,...,x_{j}...,x_{Nu}\end{Bmatrix}$ ，其中 $N_{u}$ 未标记数据样本的数量。然后，通过最小化标记和未标记输入数据上的变量加权重建误差，以半监督的方式训练VW-AE，

然后，通过最小化可变加权损失函数，可以通过传统的BP算法进行AE的训练。

B.可变加权SAE（VM-SAE）

VM-AE可以堆叠形成深度神经网络。图3给出了VW-SAE的基本结构。提出的VW-SAE与原始的SAE之间的主要区别在于：在每个AE中，可以通过标记数据对变量权重额外计算。然后使用权重损失函数去训练AE使得隐含层特征与目标变量更相关。

详细的VM-SAE算法可以总结如下：

1.从工业过程中收集训练数据。如果每个采样数据都包含输入和输出部分，我们可以获得标记的输入数据集 $X_{l} =\begin{Bmatrix} x_{1},x_{2} ,...,x_{j}...,x_{Nl}\end{Bmatrix}$ 和相应的标记输出数据集 $Y_{l} =\begin{Bmatrix} y_{1},y_{2} ,...,y_{j}...,y_{Nl}\end{Bmatrix}$ 。否则，如果该过程仅包含输入部分的样本数据，未标记的输入数据集可以表示为 $X_{u} =\begin{Bmatrix} x_{1},x_{2} ,...,x_{j}...,x_{Nu}\end{Bmatrix}$ 。利用标记数据集 $\begin{Bmatrix}X_{l},Y_{l} \end{Bmatrix}$ ，计算x中输入变量的相关系数。根据训练数据的类型，以监督或半监督的方式训练第一层VW-AE。对于仅标记的数据，通过最小化 $X_{l}$ 的可变权重损失重建函数来训练VM-SE。否则，在未标记的输入 $X_{u}$ 和标记的输入 $X_{l}$ 以半监督的方式来训练VM-AE。之后，预训练的权重为 $\begin{Bmatrix}W_{1},b_{1} \end{Bmatrix}$ 。然后，第一层的隐藏特征可以表示为： $H_{u}^1=\begin{Bmatrix} h_{1}^1,h_{2}^1 ,...,h_{i}^1...,h_{Nu}^1\end{Bmatrix}$ 用于未标记的数据； $H_{l}^1=\begin{Bmatrix} h_{1}^1,h_{2}^1 ,...,h_{j}^1...,h_{Nl}^1\end{Bmatrix}$ 用于标记的数据。

2.对于第二层AE，第一层AE的隐藏特征 $h^1$ 被提供给其输入层。 $h^1$ 的每个元素的权重都由标记的数据 $H_{l}^1$ 和目标输出 $Y_{l}$ 来计算。然后，通过最小化 $\begin{Bmatrix}H_{u}^1,H_{l}^1 \end{Bmatrix}$ （半监督方式）或 $H_{l}^1$ （监督方式）的可变权重重建损失函数来训练该VM-SE。训练完成之后，得到预训练的权重为 $\begin{Bmatrix}W_{2},b_{2} \end{Bmatrix}$ 。此外，第二层AE的隐藏特征被表示为 $H_{u}^2=\begin{Bmatrix} h_{1}^2,h_{2}^2,...,h_{i}^2...,h_{Nu}^2\end{Bmatrix}$ 和 $H_{l}^2=\begin{Bmatrix} h_{1}^2,h_{2}^2 ,...,h_{j}^2...,h_{Nl}^2\end{Bmatrix}$ 。

3.以类似的方式，监督或半监督预训练逐层进行直到获得最后的VW-AE。所有VM-AEs的预训练权重是 $\begin{Bmatrix}W_{k},b_{k} \end{Bmatrix}_{k=1,2,...,L}$ 。

4.在预训练完成后，将输出层添加到SAE的顶部用来微调权重。预训练的权重 $\begin{Bmatrix}W_{k},b_{k} \end{Bmatrix}_{k=1,2,...,L}$ 被用于初始化每个隐含层的权重。通过应用反向传播算法，可以得到改进的权重： $\begin{Bmatrix}{W^'}_{k},{b^'}_{k} \end{Bmatrix}_{k=1,2,...,L}$ 。

通过VM-SAE，可以为深度神经网络找到更好的权重的初始化。对于每个层，根据它们与目标输出变量的相关性为不同的特征分配不同的权重。权重被用于设计新的加权损失函数，它更关注于重要变量的重建。因此，VW-AE限制了无关信息。隐藏特征中将会有更多与输出相关的信息。随着整个网络逐层预训练，重要信息将从低级特征进一步加强到高级特征。同时，在VM-SAE中无关信息从低层到高成逐渐的受到抑制甚至消除。

C.基于VW-SAE的软测量

由于VW-SAE能够学习与输出相关的高级特征，因此它更适合于软测量建模。图4提供了所提出的基于深度学习的软测量建模的基本框架。执行软测量建模主要有两个步骤。首先，标记和未标记的数据如果可用或者仅标记的数据被利用以半监督或监督的方式去训练VW-SAE。之后，标记和未标记的输入数据提取深度输出相关特征。通过深度输出相关特征和标记的输出数据，可以在他们之间建立回归模型。通常，回归模型只是一个双层的神经网络。为了构建回归模型，将输出层添加到SAE的顶层。SAE的顶层代表最高级别的输出相关特征，它被用作双层回归网络的输入层。同时，质量变量构成了双层回归网络的输出层。因此，使用训练步骤中的训练数据来训练伴随回归模型的VW-SAE。对于测试步骤，测试样本的输入数据首先被应用去训练VW-SAE模型为了获得深度特征。然后，将深度特征代入训练的回归模型为了预测测试样本的输出。在这里，回归模型可以是本文中的两层（没有隐含层）神经网络。

通常，均方根误差（RMSE）指数用于验证软测量算法的有效性。它被定义为

其中 $y_{n}$ 和 $\hat{y}_n$ 分别是第n个测试样本的标记和预测输出值； $N_{T}$ 是测试样本的数量。小的RMSE值通常比大的RMSE值具有更好的预测性能。

另一个广泛使用的指数是确定系数 $R^2$ ，它代表实际输出和估计输出之间的平方相关性。 $R^2$ 可以给出模型可以解释的输出变量数据中总差异多少的信息。因此，该指数可以反映模型的可靠性。 $R^2$ 指数被定义为

其中 $\bar{y}$ 是测试数据集中输出变量的平均值。较大的 $R^2$ 值表明软测量具有良好的预测性能。