域适应学习笔记：visual Domain Adaptation

在迁移学习中，当源域和目标的数据分布不同，但两个任务相同时，这种特殊的迁移学习叫做域适应（Domain Adaptation，DA ）。因为其任务相同，所以根据上篇博客中的内容可知，域适应属于一种直推式迁移学习。它在2006年由Daumeaume等人首次提出[1]。
1.域适应的一些基本公式
源域由充足的带标签数据组成，目标域由不充足的带标签数据或者充足的无标签数据组成。且目标域与源域中数据的分布不相同。X，Y分别表示带标签数据的数据以及标签， $P(X,Y)$ 是X，Y的联合概率分布(joint distribution)（联合概率分布的几何意义为：如果将二维随机变量(X,Y)看成是平面上随机点的坐标，那么分布函数F(x,y)在(x,y)处的函数值就是随机点(X,Y)落在以点(x,y)为顶点而位于该点左下方的无穷矩形域内的概率。）。 $P(X,Y)_s$ ， $P(X,Y)_t$ 分别对应源域以及目标域的联合分布函数。 $P_s(X)$ , $P_s(Y)$ , $P_t(X)$ , $P_t(Y)$ 表示源域和目标域中X以及Y的边缘分布（marginal distributions）(某一组概率的加和，叫边缘概率。边缘概率的分布情况，就叫边缘分布)。 $P_s(X|Y)$ , $P_s(Y|X)$ , $P_t(X|Y)$ , $P_t(Y|X)$ 表示X，Y的条件分布。 $X=x, Y=y$ 的联合概率为 $P(X=x, Y=y)=P(x,y)$ 。 $x \in \chi, y \in \Upsilon$ , 其中 $\chi, \Upsilon$ 表示实例空间以及类标签空间。
$S=\{(x_i^s,y_i^s)\}_{i=1}^{N_s}$ 表示源域中的有标签数据， $T_l=\{(x_i^tl,y_i^tl)\}_{i=1}^{N_tl}$ 表示目标域中的有标签数据， $T_u=\{(x_i^tu)\}_{i=1}^{N_tu}$ 表示目标域中的无标签数据， $T$ 表示 $T_1 , T_2$ 的集合。通常情况下 $N_s$ 远大于 $N_{tl}$ 。
域适应的目标是学习一个函数 $f( )$ 用来测试目标域中的新的数据。根据源域与目标域中数据的不同域适应可以分类四类：
1）半监督域适应:函数 $f( )$ 是通过 $S, T_l$ 学习得到。
2）无监督域适应：函数 $f( )$ 是通过 $S, T_u$ 学习得到。
3）多域域适应（multisource domain adaptation）:函数 $f( )$ 是通过 $S$ 以及 1）2）两种情形得到。
4）异质域适应（heterogeneous domain adaptation）

2.与域适应相关的几种方法
1）Covariate shift
这种方法与域适应方法的一种最基本不同是在源域与目标域中标签Y的条件分布相同，但是X的边缘分布在两个与中不相同。即 $P_t(Y|X=x)=P_s(Y|X=x)$ 对于所有的 $x \in \chi$ 成立，且 $P_t(X) \ne P_s(X)$ 。源域以及目标域之间的这些不同被称为covariate shift或者sample selection bias.
实例加权的方法可以解决这种问题。即在损失函数中中加入一个权重使得源域与目标域之间的差异表小。
2）Class imbalance
这种方法对于所有的标签 $y \in \Upsilon$ ,均有 $P_t(X|Y=y)=P_s(X|Y=y)$ ，以及 $P_t(Y) \ne P_s(Y)$ 。
3）Multitask learning
在多任务学习中源域与目标域的边缘分布是相似的。即对于所有不同的任务来说每个任务的联合概率分布不同，但是所有的任务共享一个边缘分布。求每个任务所对应的条件模型时各个模型的参数 $\theta$ 是通过相同的先验分布采样得到。
4）Semisupervised learning
在半监督学习训练过程中不但用到了带标签数据还用到了不带标签数据，但是要求这些数据必须具有相同的分布。其余域适应的区别有：半监督学习过程中带标签数据非常少，但是域适应中需要有充足的带标签数据。在域适应中如果不是以Y的条件分布相同为前提的话那么带标签数据是存在噪声的，但是在半监督域学习中所有的带标签数据都认为是可靠的，因为它要求其带标签数据与不带标签数据的分布相似。
5）self-taught learning
同样带标签数据非常少，不带标签数据非常充足。但是此时不带标签数据也许和带标签数据不是特别相关。（这也是self-taught learning 与semisupervised learning最大的区别。）但是这些带标签数据与不带标签数据在一些特殊区域是有相似性的，例如一些边缘或者是角。
如果不存在任何的带标签数据的话那就变为无监督self-taught learning, 也被称为self-taught clustering.
6)Multiview analysis
现实生活中采集到的数据通常具有各种不同的角度，这就导致源域与目标域的特征空间不同。在multiview learning中，两种不同poses的样本之间的对应关系是被假设成已知的，即同一个物体具有不同姿态下的图片，但是在cross-view learninng from domain adaptation,则不需要这种假设。

3.视觉领域的一些域适应方法
1）特征增强相关方法（feature augmentation-based approaches）
即通过将源域域目标域的特征复制的方式，最简单的将原始域中N维的特征映射到一个增强的特征空间中，得到3N维的特征。在最初时候这个3N维特征有N维为两个域的公共特征，N维为原始域的特征，N维0特征。然后将这些特征送入有监督分类器中，学到一个针对两个域的共同的映射空间。
当此方法用于异质域时（指两个域的特征的维度不同），则是先通过两个投影矩阵将两个不同维度的特征映射到相同的特征维度后，再通过相同的特征增强的方式进行。

2）feature transformation-based approaches
最基本的思想是通过一种线性转换 $W \in R^{N\times M}$ 将源域特征 $x^s \in S$ 转换到 $x^t \in T$
借助这种线性转换计算源域与目标域之间的相似度： $sim_w=(x^s)^{T}Wx^t$ 。通过对W加入正则化处理可以降低过拟合。通过一些监督函数学得一种现象转换，然后再将此相似性函数用于分类算法中。

3）parameter adaptation methods
这种方法主要是基于变形的SVM展开的，例如Yang等人提出的adaptive SVM. 在这种方法中将基于源域学得的分类器 $f_s(x)$ 用于学得一个新的适应于目标域的分类器 $f_t(x)$ 。其决策函数为 $f_t(x)=f_s(x)+\delta f(x)$ ， $\delta f(x)$ 是扰动函数。通过优化方法优化决策函数得到目标域的分类器。
还有很多域适应的方法是基于核方法的（kernel methods）,多核方法（multiple kernel learning,MKL）也被成功用于很多方法中，但是其前提假设是训练和测试数据来自相同的域。因此也有很多方法基于MKL提出跨域核函数[2]-[4]。

由于1）2）3）用时都有其各自的限制，例如对于1）2）主要是优化通过特征层优化源域与目标域的不同，而没有考虑优化目标函数。这种方法的计算复杂度主要是由训练时所用的训练样本数所决定的。在方法3）中时直接优化分类器，但是它们无法将这种适应度函数直接用于新类。因此有人将这些方法进行结合。[5]-[7].

4)Dictionary-based approaches
这种方法主要用于信号处理和图像处理领域。因为在这些领域中对于信号和图像的高维的表示可以通过编码的方式得到表示其的特征词典。然后通过特征词典中的词来表示此信号与图像。虽然这种特征辞典的方式非常有效，但是当测试图像与训练图像不属于同一个域的时候便变得不再有效，因此提出了基于词典的域适应方法。[8]-[11]
这种方法主要是通过学习可用于源域与目标域的共同的特征字典的方式，然后再进行目标识别或分类。

5）其他方法
近期比较火的是基于神经网络的域适应方法。

4.域适应的应用
1）人脸识别
由于在人脸识别过程中，会有不同姿态不同光照下的图像，这就导致了源域与目标域特征分布的不同。因此可以通过上述方法4）解决这个问题。
2）人脸合成（校准）
3）物体识别

references:
[1] Daume III H, Marcu D. Domain adaptation for statistical classifiers[J]. Journal of Artificial Intelligence Research, 2006, 26: 101-126.
[2]Duan, Lixin, et al. “Visual event recognition in videos by learning from web data.” IEEE Transactions on Pattern Analysis and Machine Intelligence 34.9 (2012): 1667-1680.
[3]Duan, Lixin, Ivor W. Tsang, and Dong Xu. “Domain transfer multiple kernel learning.” IEEE Transactions on Pattern Analysis and Machine Intelligence 34.3 (2012): 465-479.
[4]Guo, Zhenyu, and Z. Jane Wang. “Cross-domain object recognition via input-output kernel analysis.” IEEE transactions on image processing 22.8 (2013): 3108-3119.
[5]Shi, Yuan, and Fei Sha. “Information-theoretical learning of discriminative clusters for unsupervised domain adaptation.” arXiv preprint arXiv:1206.6438 (2012).
[6]Hoffman, Judy, et al. “Efficient learning of domain-invariant image representations.” arXiv preprint arXiv:1301.3224 (2013).
[7]Donahue, Jeff, et al. “Semi-supervised domain adaptation with instance constraints.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2013.
[8]Qiu, Qiang, et al. “Domain adaptive dictionary learning.” European Conference on Computer Vision. Springer Berlin Heidelberg, 2012.
[9]Shekhar, Sumit, et al. “Generalized domain-adaptive dictionaries.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013.
[10]Ni, Jie, Qiang Qiu, and Rama Chellappa. “Subspace interpolation via dictionary learning for unsupervised domain adaptation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013.
[11]Phillips, P. J., Jingjing Zheng, and Rama Chellappa. “Sparse Embedding-based Domain Adaptation for Object Recognition.” The 1st International Workshop on Visual Domain Adaptation and Dataset Bias. 2013.

域适应学习笔记：visual Domain Adaptation

猜你喜欢