Tri-net 将 tri-training 与深度学习模型相结合. 首先学习三个初始模型, 然后使用每个模型来预测一个未标记数据池, 其中两个模型为另一个模型标记一些未标记实例. Tri-net 中涉及三个关键技术: 模型初始化、多样性增强和伪标签编辑.

论文地址: Tri-net for Semi-Supervised Deep Learning
代码地址: http://www.lamda.nju.edu.cn/code_Tri-net.ashx?AspxAutoDetectCookieSupport=1
会议: IJCAI 2018
任务: 分类

关键技术如下:

Output Smearing: 使用输出调制法(output smearing)生成多样化和准确的初始模型.
Diversity Augmentation: 在标记数据的某些特定轮次中对模块进行微调, 增加它们之间的多样性.
Pseudo-Label Editing: 基于稳定伪标签更可靠的直觉, 提出名为 DES 的数据编辑方法.

Tri-net 算法

定义 $\mathcal{L}=\{(x_l,y_l) \vert l=1,\dots,L\}$ 为标记数据集, $\mathcal{U}=\{(x_u)\vert u=1,\dots,U\}$ 为未标记数据集, 标签 $y_l=(y_{l1},\dots,y_{lC})$ 表示 $C$ 个类别, 如果 $y_{lc}=1$ , 则表示当前实例属于第 $c$ 个类别, 而 $y_{lc}=0$ 时则不是, 即 one-hot 编码的形式.

Tri-net 的训练过程如下图:
在这里插入图片描述

阶段1: 初始化

Tri-net 的第一步是生成三个多样的模型. Tri-net 由一个共享模型 $M_S$ 和另外三个不同的模型 $M_1$ , $M_2$ 和 $M_3$ 组成. 为了得到三个准确多样的模型, 使用 Output Smearing 来生成三个不同的标记数据集: $\mathcal{L}^1_{os}$ , $\mathcal{L}^2_{os}$ 和 $\mathcal{L}^3_{os}$ . 在三个数据集上同时训练 $M_S$ , $M_1$ , $M_2$ 和 $M_3$ . 网络结构如下:
在这里插入图片描述

阶段2: 训练

和 tri-training 思想一样, 如果两个模型对未标记示例的预测达成一致, 并且预测可靠且稳定, 则将这个具有伪标签示例加入到第三个模型的训练集中. 然后用增强的训练集细化第三个模型. 由于模型之间相互挑选增加了训练集, 所以三个模型会越来越相似. 为了解决这个问题, 对标记数据上的模型进行微调, 以在某些特定轮次中增加它们之间的多样性. 整个训练过程如下所示:
在这里插入图片描述

步骤1. 在 $\mathcal{L}$ 上使用 Output Smearing 生成三个不同的标记数据集: $\mathcal{L}^1_{os}$ , $\mathcal{L}^2_{os}$ 和 $\mathcal{L}^3_{os}$ .
步骤2. 在 $\mathcal{L}^1_{os}$ , $\mathcal{L}^2_{os}$ 和 $\mathcal{L}^3_{os}$ 上训练 $M_S$ , $M_1$ , $M_2$ , $M_3$ .
步骤3. 训练 $M_v, v=1,2,3$ . 初始化挑选样本集 $\mathcal{PL}_v$ , 首先通过 Labeling 函数让另外两个模型挑选出置信示例, 并添加到 $\mathcal{PL}_v$ 中, 接着, 利用 DES 方法对 $\mathcal{PL}_v$ 进行更新, 最后得到 $M_v$ 的训练样本 $\hat{\mathcal{L}}_v=\mathcal{L} \cup \mathcal{PL}_v$ . 注意, 如果刚开始训练 $M_1$ 时, 模型 $M_S$ 和 $M_1$ 一同通过 $\hat{\mathcal{L}}_v$ 训练, 其他两个模型进行训练时则不需要再对 $M_S$ 进行训练.
重复步骤3 $T$ 次, 最终返回训练完成的 $M_S$ , $M_1$ , $M_2$ , $M_3$ .

Diversity Augmentation 多样性增强

为了防止 collapsed neural networks 问题, 还会在某些 epoch 中继续使用 Output Smearing. 即在步骤3中, 训练 $M_v$ 之前, 利用 Output Smearing 再次生成 $\mathcal{L}^1_{os}$ , $\mathcal{L}^2_{os}$ 和 $\mathcal{L}^3_{os}$ , 并训练 $M_S$ , $M_1$ , $M_2$ , $M_3$ . Tri-net 中选择的 epoch 时机为: 在 $N_t=U$ 且 $m o d (t, 4) = = 0$ 时进行操作. 这里 $N_t$ 表示数据缓冲池的大小, 缓冲池用来存放从 $\mathcal{U}$ 中选择的未标记数据, 这个思想来自 Co-Training.

Output Smearing 输出调制

类似数据增强(数据增强是将噪声添加到标记数据集中), Output Smearing 通过将随机噪声注入到真实标签来构造不同的训练集, 并分别从不同的训练集中生成模型:
$\hat{y}_{lc}=y_{lc} + \mathrm{ReLU}(z_{lc} \times std)$
其中 $z_{lc}$ 是在标准正态分布进行的独立采样, $s t d$ 是标准偏差, $\mathrm{ReLU}$ 是一个函数, 确保 $\hat{y}_{lc}$ 非负, 其在神经网络中常用来做激活函数:
$\mathrm{ReLU}(a)= \begin{cases} a & a>0 \\ 0 & a\leq 0 \end{cases}$
然后对 $\hat{y}_{lc}$ 进行归一化(相当于是转化为了概率形式):
$\hat{y}_{l}=(\hat{y}_{l1},\dots,\hat{y}_{lC})/\sum_{c=1}^C\hat{y}_{lc}$
通过 Output Smearing, 生成三个训练集 $\mathcal{L}_{os}^v=\{(x_l,\hat{y}_l)\vert 1\leq l \leq L\}(v=1,2,3)$ , 并利用其初始化 $M_1$ , $M_2$ , $M_3$ , 损失函数如下:
$Loss=\frac{1}{L}\sum_{l=1}^L\{L_y(M_1(M_S(x_l)),\hat{y}_l^1)+L_y(M_2(M_S(x_l)),\hat{y}_l^2)+L_y(M_3(M_S(x_l)),\hat{y}_l^3)\}$
其中, $L_y$ 为标准 softmax 交叉熵损失函数.

Pseudo-Label Editing 伪标签编辑

新标注样本的伪标签可能不正确, 这些不正确的伪标签会降低性能(相当于在训练集中添加噪声). 在半监督学习中的一些数据编辑方法通常是基于图的, 由于高维度而难以在 DNN 中使用. 在这里, 使用一种用于具有 dropout 的 DNN 的新数据编辑方法(也是作者团队在2014年提出的).

对于每个 $(x_i, \overline{y}_i)$ ( $\overline{y}_i$ 是测试模式下的伪标签), 使用模型预测 $x_i$ 的标签 $K$ 次, 并记录预测与 $\overline{y}_i$ 不同的频率 $k$ . 如果 $\frac{K}{3}$ , 则认为 $x_i$ 的伪标签 $\overline{y}_i$ 是一个不稳定的伪标签. 可以理解为如果 $x_i$ 的多次预测的伪标签相同, 则这个伪标签是稳定的.

后验概率

Tri-net 的后验概率为三个模型的后验概率的平均值. 未标记示例 $x$ 以最大后验概率进行分类:
$y=\argmax_{c\in\{1,\dots,C\}}\{p(M_1(M_S(x))=c|x)+p(M_2(M_S(x))=c|x)+p(M_3(M_S(x))=c|x)\}$

[半监督学习] Tri-net for Semi-Supervised Deep Learning