引言

要介绍半监督学习(Semi-supervised learning)需要先介绍下监督学习(Supervised learning)。

监督学习： $\{(x^r,\hat{y}^r\}^R_{r=1}$ 假设有 $R$ 笔训练数据，每笔训练数据都有对应的输出 $\hat{y}^r$ (标签/类别)
半监督学习： $\{(x^r,\hat{y}^r\}^R_{r=1},{x^u}^{R+U}_{u=R}$ 有另外一组没有标签的数据
- 通常 $U>>R$ ,没有标签的数量远大于有标签的
- 直推学习(Transductive learning) : 学习过程中所考虑的未标记样本恰是待预测数据
- 归纳学习(Inductive learning)：训练数据中的未标记样本并非待测的数据

为什么做半监督学习？

在这里插入图片描述

假设我们要做分类的项目，要建一个猫和狗的分类器，同时有一大堆有关猫和狗的图片，但是这些图片是没有关于哪些是猫哪些是狗的标签的。只有少一部分是有标签的。

在这里插入图片描述

假设我们只考虑这些有标签的数据，然后需要找到一个边界，将猫和狗的训练数据分开。可能会像上图红线那样画。如果哪些未标记的数据的分布像是灰色点那样，
虽然这些灰色点没有标签，但是它们还是可以告诉我们一些信息。比如你可能会改成下面这样划分。

在这里插入图片描述

半监督学习使用无标签的数据往往伴随着一些假设，这些假设的精确程度会影响半监督学习的有用程度。

在这里插入图片描述

可能红框的那个灰点实际上是狗，它们因为背景都是绿色的而看起来很像。

半监督学习中的生成模型

先来回顾下监督学习中的生成模型。

在这里插入图片描述

假设有有标签的训练数据 $x^r$ 属于类别 $C_1$ 或 $C_2$

有了这些参数后，就可以做分类问题，就可以计算一笔新的数据属于哪个类别的概率大。

如果给了很多无标签的数据，它们就会影响判断。在这里插入图片描述

上面的绿色点都是无标签的数据，那么上面的参数是不合理的，因为还有很多分布没有考虑到。
在这里插入图片描述

虚线圆圈的分布可能更加合理。总之这些无标签的数据会影响对 $P(C_1),P(C_2),\mu^1,\mu^2,\Sigma$ 的估测。

那么实际上要怎么做呢

初始化一组参数 $\theta = \{P(C_1),P(C_2),\mu^1,\mu^2,\Sigma\}$ 。
第一步：计算每笔无标签数据的后验概率(posterior probability) $P_\theta(C_1|x^u)$ , $x^u$ 表示无标签的数据。
第二步：通过 $\frac{N_1+\sum_{x^u} P(C_1|x^u)}{N}$ ( $N$ 是所有样本的数量， $N_1$ 是被标记为 $C_1$ 的样本数量)来更新 $P(C_1)$ ，其中 $C_1$ 出现的次数就是所有无标签数据属于 $C_1$ 的概率之和。

而 $\mu^1$ 通过上面的公式更新(等式右边第一个式子是计算所有属于 $C_1$ 的样本的均值，第二个式子，如果 $x^u$ 偏向于 $C_1$ ，那么就对 $P(C_1)$ 的影响就大一点，反之就小一点。把它们加起来，再除以所有 $x_u$ 中 $P(C_1|x^u)$ 的和)。
有了新的参数后就可以回到第一步(EM算法)

为什么是这样。

假设原来只有有标签数据，我们要做的事情是最大化似然 $\log L(\theta) = \sum_{x^r} \log P_\theta(x^r,\hat{y}^r)$ ，如果给定参数 $\theta$ ，那么每笔训练数据的 $P_\theta(x^r,\hat{y}^r)$ 是可以算出来的： $P_\theta(x^r,\hat{y}^r) = P_\theta(x^r | \hat{y}^r)P(\hat{y}^r)$
现在同时有有标签数据和无标签数据使用 $\log L(\theta) = \sum_{x^r} \log P_\theta(x^r,\hat{y}^r) + \sum_{x^u} \log P_\theta(x^u)$ ，其中一笔无标签数据出现的几率 $P_\theta(x^u) = P_\theta(x^u|C_1)P(C_1) + P_\theta(x^u|C_2)P(C_2)$ 就是 $C_1$ 的先验概率乘以 $C_1$ 类别产生无标签数据的概率加上 $C_2$ 的先验概率乘以 $C_2$ 类别产生无标签数据的概率（全概率公式）。就是说这笔无标签数据可能从 $C_1$ 来，也可能从 $C_2$ 中来，接下来就要最大化 $\log L(\theta) = \sum_{x^r} \log P_\theta(x^r,\hat{y}^r) + \sum_{x^u} \log P_\theta(x^u)$ 。

上面是生成模型，下面介绍一种比较通用的方式，基于低密度分离(Low-density Separation)，也就是非黑即白
在这里插入图片描述

就是说在这两个类别的交界处密度很低，可以很容易的分开这两个类别。
其中最典型的方法就是Self-training(自训练算法)

给定有标签数据集 $\{(x^r,\hat{y^r})\}^R_{r=1}$ ，和无标签数据集 $\{x^u\}^{R+U}_{u=l}$
重复
- 从有标签数据集中训练模型 $f^*$
- 将 $f^*$ 应用到无标签数据集
  - 获得 $\{(x^u,y^u)\}^{R+U}_{u=l}$
- 从无标签数据集中拿出一些数据，加到有标签数据集中