本篇是迁移学习专栏介绍的第十一篇论文，清华大学助理教授Mingsheng Long (龙明盛)发表在国际机器学习顶级会议CVPR2018。

Abstract

对抗性学习已经成功地嵌入到深度网络中，以学习可迁移的特征，从而减少源域和目标域之间的分布差异。现有的域对抗网络假设跨域完全共享标签空间。在大数据的存在下，将分类和表示模型从现有的大规模域迁移到未知的小规模域具有很强的动力。引入部分迁移学习，将共享标签空间的假设松弛为目标标签空间仅是源标签空间的一个子空间。以往的方法一般都是将整个源域与目标域匹配，对于局部迁移问题，容易产生负迁移。我们提出了选择性对抗性网络Selective Adversarial Networks(SAN)，它通过选择离群源类来避免负迁移，通过最大程度匹配共享标签空间中的数据分布来促进正迁移。实验表明，我们的模型在多个基准数据集上的局部迁移学习任务的性能优于最先进的结果。

1. Introduction

深度网络已经大大改善了各种机器学习问题和应用的技术水平。目前，只有当大量标记数据可用时，才会出现这些令人印象深刻的性能提升。由于手工为不同的应用领域动态标记足够的训练数据常常是禁止的，对于缺少标记数据的问题，有很强的动机建立有效的算法来减少标记的消耗，通常是通过利用来自不同但相关的源领域的现成标记数据。然而，这种有希望的迁移学习范式受到跨不同领域的数据分布变化的影响在调整分类模型以适应目标任务[23]方面存在一个主要障碍。

现有的迁移学习方法假设共享标签空间和不同的特征分布在源和目标域中。这些方法在不使用目标标签的情况下，通过学习域不变的特征表示，在不同的域之间架起桥梁，从源域学习的分类器可以直接应用于目标域。最近的研究表明，深度网络可以通过分离域后变异的解释因子，为迁移学习学习更多的可迁移特征[5,33]。最近的进展是将迁移学习嵌入到深度特征学习的管道中，提取领域不变的深度表示[30,16,7,31,18]。

在大数据的存在下，我们可以很容易地访问大规模标记的数据集，如ImageNet-1K。因此，一个自然的野心是直接将表示和分类模型从大规模数据集迁移到我们的目标数据集，例如Caltech-256，它通常是小规模的，在训练和测试时具有未知的类别。从大数据的角度来看，我们可以假设大数据集的多样性足以包含小数据集的所有类别。因此，我们引入了一个新的局部迁移学习问题，假设目标标签空间是源标签空间的一个子空间。这是开放集域自适应[3]的前提。

如图1所示，部分迁移学习问题比标准迁移学习更具有普遍性和挑战性，因为离群源类(sofa)在识别目标类(足球和望远镜)时会导致负迁移。负迁移是指迁移学习者的学习效果比单纯训练在源域上的有监督分类器差的现象，这是迁移学习[23]的关键挑战。因此，像以前的方法一样匹配整个源和目标域并不是这种新的部分迁移学习场景的有效解决方案。

本文介绍了选择性对抗性网络(SAN)，这在很大程度上扩展了深度对抗性适应[7]的能力，以解决从大迁移学习的部分迁移将域缩放到小规模域。SAN在共享标签空间中对齐源和目标数据的分布，更重要的是，在离群值源类中选择源数据。与以前的方法相比，一个关键的改进是能够同时促进相关数据的正迁移和减轻不相关数据的负迁移，这可以在端到端框架中进行训练。实验表明，我们的模型在公共数据集上的深度传输学习超过了最先进的结果。

2. Related Work

迁移学习[23]连接不同的领域或任务，减轻机器学习的手工标记负担[22、6、34、32]、计算机视觉[26、9、14]和自然语言处理[4]。迁移学习的主要技术难点是在形式上减少跨领域的分布差异。深度网络可以学习抽象表示，分离出数据[2]背后的不同变异解释因子，并显示出不同种群下的不变因子，这些不变因子可以很好地从原始任务迁移到类似的新任务[33]。因此，深度网络已被探索用于迁移学习[8,21,14]、多模态和多任务学习[4,20]，与以前的浅层迁移学习方法相比，性能有显著提高。

然而，最近的研究表明，深度网络可以学习抽象的特征表示，这种抽象的特征表示只能减少而不能消除跨域的差异[8,30]，从而给目标任务带来无限的风险[19,1]。最近的一些桥梁深度学习和工作领域适应[18]7 30日,16日,31日,延伸深度域卷积网络(cnn)通过添加适应适应层通过的意思是嵌入分布匹配(30、16、18),或通过添加子网域鉴别器而学会了混淆鉴别器深度特性domain-adversarial训练范例[7,31日]。虽然性能得到了显著改善，但是这些最先进的方法可能受到源域和目标域共享相同标签空间的假设的限制。部分迁移学习违背了这一假设，将表示和分类模型从现有的大规模域迁移到未知的小规模域。据我们所知，这是第一个研究对抗性网络中部分迁移学习的工作

3. Partial Transfer Learning

本文提出了一种新的迁移学习范式——局部迁移学习，其中目标域标记空间Ct是源域标记空间 $\mathcal{C}_t$ 的一个子空间 $\mathcal C_{s}$ ，即 $\mathcal{C}_{t} \subset \mathcal{C}_{s}$ 。这种新的范例在实践中得到了广泛的应用，因为我们通常需要将模型从大型数据集(例如ImageNet)迁移到小型数据集(例如Caltech-256)。

类似于标准迁移学习的部分迁移，我们也提供了一个源域 $\mathcal{D}_{s}=\left\{\left(\mathbf{x}_{i}, y_{i}\right)\right\}_{i=1}^{n_{s}}$ ， $n_s$ 标签的例子与 $\left|C_{s}\right|$ 相关类和目标域 $\mathcal{D}_{t}=\left\{\mathbf{x}_{i}\right\}_{i=n_{s}+1}^{n_{s}+n_{t}}$ ， $n_ t$ 未标签的例子与 $\left|C_{t}\right|$ 类，但是不同，我们有 $\mathcal{C}_{s}|>| \mathcal{C}_{t} |$ 学习部分迁移。分别从概率分布p和q中采样源域和目标域。在标准迁移学习中，我们有 $p \neq q$ ;在部分迁移学习中，我们进一步得到 $p_{\mathcal{C}_{t}} \neq q$ ，其中 $p_{\mathcal{C}_{t}}$ 表示属于标签空间Ct的源域标记数据的分布。本文的目标是设计一个深层神经网络，使学习迁移特性 $\mathbf{f}=G_{f}(\mathbf{x})$ 和自适应分类器 $y=G_{y}(\mathbf{f})$ 桥跨域差异，这样目标风险 $\operatorname{Pr}_{(\mathbf{x}, y) \sim q} [G_{y}\left(G_{f}(\mathbf{x})\right) \neq y ]$ 是最小化利用源领域的监督。

在标准迁移学习中，一个主要的挑战是目标域没有标记数据，因此在源域 $D_{s}$ 上训练的源分类器 $G_y$ 不能被标记直接应用到目标域 $D_t$ 的分布差异 $p \neq q$ 。部分迁移学习，另一个更加困难的挑战是，我们甚至不知道哪一部分的源域标签与目标域共享空间 $\mathcal C_{s}$ 标签空间 $\mathcal C_{t}$ 因为 $\mathcal C_{t}$ 是培训期间无法访问，导致两个技术难题。一方面，属于离群值标签空间 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 的源域标记数据会对整体传输性能产生负迁移影响。现有深迁移学习方法[16, 7, 31, 18]通常假设源域和目标域有相同的标签空间和匹配整个分布p和q,这容易负迁移,因为源和目标标签空间是不同的,因此在原则上不能匹配。因此，如何消除或至少减少源标记数据在离群标记空间 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 中的影响，是缓解负迁移的关键。另一方面，减少 $p_{\mathcal{C}_{t}} \text { and } q$ 之间的分布差异对于在共享标签空间 $\mathcal C_{t}$ 中实现知识迁移至关重要。这些挑战应该通过过滤掉源领域中不相关部分的负面影响，同时实现有效的迁移学习来解决。

我们提出了一个新的选择性对抗网络，通过解决两个挑战来实现部分迁移学习。(1)通过过滤属于离群值标签空间 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 的不相关源标记数据，规避负迁移。(2)通过最大程度匹配共享标签空间 $\mathcal C_{t}$ 中 $p_{\mathcal{C}_{t}} \text { and } q$ 的数据分布，促进正迁移。

3.1. Domain Adversarial Network

领域对抗网络已经成功地应用于迁移学习[7,31]，通过提取可迁移特征，可以减少源域和目标域之间的分布偏移。对抗性学习过程是一款双人博弈，其中第一个是域识别器Gd，训练Gd区分源域和目标域，第二个玩家是同时微调的特征提取器Gf，用来迷惑域识别器。

域不变特征提取，特征提取器Gf的参数 $\theta_{f}$ ，被最大域判别器Gd的损失，而域判别器的参数 $\theta_{d}$ ，Gd学会了通过最小化域判别器的损失。此外，标签预测功能的损失也被最小化。域对抗网络[7]的目标是实现以下功能：

$\begin{aligned} C_{0}\left(\theta_{f}, \theta_{y}, \theta_{d}\right)=& \frac{1}{n_{s}} \sum_{\mathbf{x}_{i} \in \mathcal{D}_{s}} L_{y}\left(G_{y}\left(G_{f}\left(\mathbf{x}_{i}\right)\right), y_{i}\right) \\ &-\frac{\lambda}{n_{s}+n_{t}} \sum_{\mathbf{x}_{i} \in \mathcal{D}_{s} \cup \mathcal{D}_{t}} L_{d}\left(G_{d}\left(G_{f}\left(\mathbf{x}_{i}\right)\right), d_{i}\right) \end{aligned}$

λ是一种权衡参数之间的两个目标形状特征在学习。训练后收敛,参数 $\hat{\theta}_{f}, \hat{\theta}_{y}, \hat{\theta}_{d}$ 函数(1)

$\begin{array}{c}{\left(\hat{\theta}_{f}, \hat{\theta}_{y}\right)=\arg \min _{\theta_{f}, \theta_{y}} C_{0}\left(\theta_{f}, \theta_{y}, \theta_{d}\right)} \\ {\left(\hat{\theta}_{d}\right)=\arg \max _{\theta_{d}} C_{0}\left(\theta_{f}, \theta_{y}, \theta_{d}\right)}\end{array}$

在源域标签空间和目标域标签空间相同的情况下，域对抗网络对标准迁移学习特别有效， $\mathcal{C}_{s}=\mathcal{C}_{t}$ 。

3.2. Selective Adversarial Network

在部分迁移学习中，目标域标签空间是源域标签空间的子集， $\mathcal{C}_{t} \subset \mathcal{C}_{s}$ 。因此，匹配整个源域分布p和目标域分布q将导致离群值标签空间 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 引起的负迁移。与目标标记空间 $\mathcal{C}_t$ 相比，离群标记空间 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 越大，负迁移效应越严重。为了对抗负迁移，我们应该在执行域对抗性适应时，在 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 中找到一种方法来选择离群源类以及相关的源标记数据。

为了匹配不同标签空间 $\mathcal{C}_{s} \neq \mathcal{C}_{t}$ 的源域和目标域，需要将式(1)中的域判别器 $G_{d}$ 分解为 $\left | \mathcal{C}_{s} \right |$ 类域判别器 $G_{d}^{k}, k=1, \ldots,\left|\mathcal{C}_{s}\right|$ ，每个负责匹配与标签k相关联的源和目标域数据，如图2所示。

由于训练过程中目标区域数据完全未标记，无法访问目标标签空间 $C_{t}$ ，因此很难确定哪个区域识别器 $G_{d}^{k}$ 负责每个目标数据点。幸运的是，我们观察到标签预测器 $\hat{\mathbf{y}}_{i}=G_{y}\left(\mathbf{x}_{i}\right)$ 对每个数据点习的输出是源标签空间 $\mathcal{C}_{s}$ 上的概率分布。这个分布很好地描述了将习分配给每个 $\left | \mathcal{C}_{s} \right |$ 类的概率。因此，很自然地使用 $\hat{\mathbf{y}}_{i}$ 作为概率，将每个数据点 $\mathbf{x}_{i}$ 分配给 $\left | \mathcal{C}_{s} \right |$ 域鉴别器 $G_{d}^{k}, k=1, \ldots,\left|\mathcal{C}_{s}\right|$ 。对所有 $\left | \mathcal{C}_{s} \right |$ 域鉴别器 $G_{d}^{k}, k=1, \ldots,\left|\mathcal{C}_{s}\right|$ 如下：

$L_{d}^{\prime}=\frac{1}{n_{s}+n_{t}} \sum_{k=1}^{\left|\mathcal{C}_{s}\right|} \sum_{\mathbf{x}_{i} \in \mathcal{D}_{s} \cup \mathcal{D}_{t}} \hat{y}_{i}^{k} L_{d}^{k}\left(G_{d}^{k}\left(G_{f}\left(\mathbf{x}_{i}\right)\right), d_{i}\right)$

其中 $G_{d}^{k}$ 为第k个域判别器， $L_{d}^{k}$ 为其交叉熵损失， $d_{i}$ 为点 $\mathbf{x}_{i}$ 的域标。与式(1)中的单判别域对抗性网络相比，本文提出的多判别域对抗性网络具有细粒度自适应能力，其中每个数据点 $\mathbf{x}_{i}$ 只与相关数据点匹配域判别器根据其概率 $\hat{\mathbf{y}}_{i}$ 。这种细粒度的适应可能带来三个好处。(1)避免了将每个点只分配给一个域识别器的困难，这对于目标域数据往往是不准确的。(2)它避免了负迁移，因为每个点只对齐到一个或几个最相关的类，而不相关的类被概率加权区域鉴别器损失过滤掉。(3)probability-weighted域判别器损失将不同的损失不同域鉴别器,这自然学习多个领域与不同的参数 $\theta_{d}^{k}$ 判别器;这些具有不同参数的区域鉴别器可以促进每个实例的正迁移。

除了上述实例级加权机制外，我们还引入了另一种类级加权方法，以进一步消除异常源类 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 和相关源数据的负面影响。我们只观察到域鉴别器负责目标类的 $\mathcal{C}_t$ 是有效促进正迁移，而另一个鉴别器负责异常源类的 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 只有引入噪声和恶化的源域和目标域之间的正迁移在共享标签空间 $\mathcal{C}_t$ 。因此，我们需要对负责异常源类的域判别器进行降权，这些域判别器可以通过对这些域判别器的类级加权来实现。由于目标数据不太可能属于离群源类，它们的概率 $y_{i}^{k}, k \in \mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 也足够小。因此，我们可以对负责离群源类的域鉴别器进行加权，如下所示

$\begin{aligned} L_{d} &=\frac{1}{n_{s}+n_{t}} \sum_{k=1}^{\left|\mathcal{C}_{s}\right|}\left[\left(\frac{1}{n_{t}} \sum_{\mathbf{x}_{i} \in \mathcal{D}_{t}} \hat{y}_{i}^{k}\right)\right.\\ & \times\left(\sum_{\mathbf{x}_{i} \in\left(\mathcal{D}_{s} \cup \mathcal{D}_{t}\right)} \hat{y}_{i}^{k} L_{d}^{k}\left(G_{d}^{k}\left(G_{f}\left(\mathbf{x}_{i}\right)\right), d_{i}\right)\right) ] \end{aligned}$

$\frac{1}{n_{t}} \sum_{\mathbf{x}_{i} \in \mathcal{D}_{t}} \hat{y}_{i}^{k}$ 是类k的类级权重，对于离群源类来说，这个值很小。

虽然式(4)中引入的多域鉴别器可以通过减少离群源类 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ 的负面影响，通过有效地迁移共享标签空间 $\mathcal{C}_t$ 的知识，有选择地将相关知识迁移到目标域，但很大程度上依赖于概率 $\hat{\mathbf{y}}_{i}=G_{y}\left(\mathbf{x}_{i}\right)$ 。因此，我们利用熵最小化原理[10]进一步细化了标签预测器Gy，该原理鼓励类间的低密度分离。该准则是通过最小化目标域 $\mathcal{D}_{t}$ 上的熵E /概率 $\hat{y}_{i}^{k}$ 来实现的

$E=\frac{1}{n_{t}} \sum_{\mathbf{x}_{i} \in \mathcal{D}_{t}} H\left(G_{y}\left(G_{f}\left(\mathbf{x}_{i}\right)\right)\right)$

式中H(·)为条件熵损失泛函 $H\left(G_{y}\left(G_{f}\left(\mathbf{x}_{i}\right)\right)\right)=-\sum_{k=1}^{\left|\mathcal{C}_{s}\right|} \hat{y}_{i}^{k} \log \hat{y}_{i}^{k}$ 。通过最小化熵函数(5)，标签预测器 $G_{y}\left(\mathbf{x}_{i}\right)$ 可以直接访问目标未标记的数据，并对自身进行修正，使其通过目标低密度区域，在预测不确定性最小的情况下给出更准确的概率 $\hat{\mathbf{y}}_{\dot{2}}$

将所有因素综合起来，提出的选择性对抗网络(SAN)的最终目标是：

$C\left(\theta_{f}, \theta_{y},\left.\theta_{d}^{k}\right|_{k=1} ^{k\left|\mathcal{C}_{s}\right|}\right)=\frac{1}{n_{s}} \sum_{\mathbf{x}_{i} \in \mathcal{D}_{s}} L_{y}\left(G_{y}\left(G_{f}\left(\mathbf{x}_{i}\right)\right), y_{i}\right)+\frac{1}{n_{t}} \sum_{\mathbf{x}_{i} \in \mathcal{D}_{t}} H\left(G_{y}\left(G_{f}\left(\mathbf{x}_{i}\right)\right)\right) -\frac{1}{n_{s}+n_{t}} \sum_{k=1}^{\left|c_{s}\right|}\left[ \left(\frac{1}{n_{t}} \sum_{\mathbf{x}_{i} \in \mathcal{D}_{t}} \hat{y}_{i}^{k}\times\left(\sum_{\mathbf{x}_{i} \in \mathcal{D}_{s} \cup \mathcal{D}_{t}} \hat{y}_{i}^{k} L_{d}^{k}\left(G_{d}^{k}\left(G_{f}\left(\mathbf{x}_{i}\right)\right), d_{i}\right)\right) \right)\right.]$

在λ是一个权衡的超参数中的两个目标统一的优化问题。网络参数的优化问题是找到 $\hat{\theta}_{f}, \hat{\theta}_{y}$ 和 $\hat{\theta}_{d}^{k}\left(k=1,2, \ldots,\left|\mathcal{C}_{s}\right|\right)$ 满足

$\left(\hat{\theta}_{f}, \hat{\theta}_{y}\right)=\arg \min _{\theta_{f}, \theta_{y}} C\left(\theta_{f}, \theta_{y},\left.\theta_{d}^{k}\right|_{k=1} ^{\left|C_{s}\right|}\right)$

$\left(\hat{\theta}_{d}^{1}, \ldots, \hat{\theta}_{d}^{\left|\mathcal{C}_{s}\right|}\right)=\arg \max _{\theta_{d}^{1}, \ldots, \theta_{d}^{1}} C\left(\theta_{f}, \theta_{y},\left.\theta_{d}^{k}\right|_{k=1} ^{k_{s} |}\right)$

选择性对抗性网络(SAN)支持部分迁移学习，通过滤除异常源类 $\mathcal{C}_{s} \backslash \mathcal{C}_{t}$ ，同时避免负迁移；通过最大程度匹配共享标签空间 $\mathcal{C}_t$ 中 $p_{\mathcal{C}_{t}} \text { and } q$ 数据分布，促进正迁移。

4. Experiments

我们在三个基准数据集上进行了实验，以评估我们的方法对几种最先进的深度迁移学习方法的有效性。程式码及数据集：: https://github.com/thuml.

4.1. Setup

评估基于三个公共数据集：Office-31, Caltech-Office和ImageNet-Caltech。

Office-31 [26] 是视觉领域适配的标准基准，由4,652幅图像和31个类别组成，分别来自亚马逊(a)、Webcam (W)和DSLR(D)三个不同的域名，分别包含由web camera和digital SLR在不同设置下拍摄的图像。我们将31个类别的3个域表示为A 31、W 31和D 31。然后我们使用Office-31和Caltech-256共享的10个类别，在Office-31的每个域中选择这10个类别的图像作为目标域，表示为A 10、W 10和D 10。我们评估了A 31 → W 10, D 31 → W 10, W 31 → D 10, A 31 → D 10, D 31 → A 10, W 31 → A 10六个迁移任务的所有方法。这些任务表示源域和目标域都有少量类的情况下的性能。

Caltech-Office [9] 以Caltech-256 (c256)[12]为源域，Office 31中的三个域为目标域构建。我们使用Caltech-256和Office-31共享的10个类别，并在Office-31的每个域中选择这10个类别的图像作为目标域[9,17,28]。将源域表示为c256，我们可以构建3个传输任务:C 256 → W 10, C 256 → A 10 和 C 256 → D 10。此设置的目的是测试不同方法在任务设置上的性能，其中源域的类要比目标域多得多。

ImageNet-Caltech 由包含1000个类的ImageNet-1K[25]数据集和包含256个类的Caltech-256构建。它们共享84个公共类，因此我们形成了两个迁移学习任务: ImageNet 1000 → Caltech 84 和 Caltech 256 → ImageNet 84。为了防止预训练模型对ImageNet的影响，我们将ImageNet作为目标域时使用ImageNet验证集，将ImageNet作为源域时使用ImageNet训练集。此设置表示源域和目标域中有大量类的任务的性能。

我们将SAN的性能与当前最先进的迁移学习和深度学习方法(卷积神经网络(AlexNet[15])、深度适应网络(DAN)[16]、反向梯度(RevGrad)[7]、剩余迁移网络(RTN)[18]和对位判别域适应(ADDA)[29])进行了比较。DAN通过嵌入多个任务特定层的深层特性来重新生成内核Hilbert空间(RKHSs)，并使用多内核MMD最优地匹配不同的分布，从而学习可迁移特性。RevGrad通过对抗性训练范式，使有区别的领域分类器的源和目标领域不可区分，从而改进了领域适应。RTN通过深度剩余学习[13]，共同学习可迁移特征，适应不同的源分类器和目标分类器。与RevGrad相比，ADDA结合了判别建模、不受约束的重量共享和GAN丢失，从而获得了更好的结果。在目标标签空间是源标签空间的一个子空间的情况下，所有先前的方法都不能解决局部迁移学习问题。为了在不同的基础网络上测试SAN，我们还比较了VGG-16[27]上不同的测试方法。为了进一步提高选择性机制和熵最小化的有效性，我们通过评估SAN的两个变体来进行消融研究:(1)SAN选择性是没有选择性机制的变体，其模型复杂度与AlexNet相同;(2) SAN-entropy是没有熵最小化的变量，其模型复杂度与SAN相同。

我们遵循标准协议，使用所有标记源数据和所有未标记目标数据进行无监督迁移学习[26,16]。我们使用三个随机实验来比较每个迁移任务的平均分类精度。对于基于mmd的方法(DAN和RTN)，我们在训练数据上使用带宽b设置为中位数对平方距离的高斯核，即中位数启发式[11]。对于所有方法，我们对标记的源数据执行标准的交叉验证，以选择它们的超参数。

我们实现了所有基于Caffe deeplearning框架的深度方法，并对预先训练在ImageNet上的AlexNet[15]的Caffe提供的模型进行了微调。我们添加一个瓶颈层fc7、fc8层之间RevGrad[7]除了任务ImageNet 1000 → Caltech 84以来pre-trained模型是ImageNet训练数据集,它可以充分利用的优势pre-trained模型与原fc7、fc8层。对于SAN，我们对所有的特征层进行微调，训练瓶颈层、分类器层和对抗性网络。由于这些新层和网络是从零开始训练的，所以我们将它们的学习率设置为其他层的10倍。我们使用minibatch随机梯度下降势头(SGD) 0.9和学习速率退火策略中实现RevGrad[7]:学习速率调整期间使用以下公式:SGD $\eta_{p}=\frac{\eta_{0}}{(1+\alpha p)^{\beta}}$ ，p是线性变化从0到1的培训进展， $\eta_{0}=0.001, \alpha=10$ ， $\beta=0.75$ 低误差源域上进行了优化。由于SAN可以在不同的传输任务之间稳定地工作，所以随着RevGrad[7]的增加，敌对网络的惩罚值逐渐从0增加到1。通过对标记的源数据进行标准交叉验证，选择了学习速度和惩罚策略的所有超参数。

4.2. Results

Office-31的六个任务、Caltech-Office的三个任务和ImageNetCaltech的两个任务的分类结果如表1和表2所示。SAN模型在所有任务上都优于所有比较方法。特别是对于小源域和小目标域的任务，如a31w10、a31d10，以及大源域和小目标域的任务，如c31w10, SAN的精度有了大幅度提高。在大规模源域和目标域的任务上，如i1000 c84，获得了相当高的精度。这些结果表明，在目标标签空间是源标签空间的一个子空间的情况下，SAN可以学习局部迁移学习的可迁移特征。

结果揭示了几个有趣的观察结果。(1)以往的深度迁移学习方法，包括基于逆向网络的RevGrad和基于MMD的DAN等，其学习效果都不如标准的AlexNet，说明负迁移效应的影响。这些方法试图将知识从源域的所有类迁移到目标域，但是源域中的一些类并不存在于目标域中。

离群值的源数据。欺骗对抗性网络来匹配异常源数据和目标数据的分布，会使分类器更容易对这些异常类中的目标数据进行分类，容易产生负迁移。因此，这些以前的方法的性能甚至比标准AlexNet更差。然而，SAN的性能远远超过它们，这表明SAN可以通过消除与目标域无关的异常源类有效地避免负迁移。(2) RTN的性能优于AlexNet，因为它执行的熵最小化准则在一定程度上可以避免异常源数据的影响。但是，与只有熵损失最小的选择性神经网络相比，我们发现选择性神经网络在大多数任务中都优于选择性神经网络，这表明RTN也存在负迁移效应，即使是RTN的残枝也无法学习到源域和目标域之间的巨大差异。(3) ADDA首先使用源域中的标签学习识别表示，然后使用通过域-对抗性损失学习到的非对称映射，学习将目标数据映射到相同空间的单独编码。通过结合判别建模、不受约束的重量共享和GAN丢失，ADDA的效果比RevGrad和RTN好得多。SAN在所有的任务中都优于ADDA，证明了我们的选择性对抗机制可以共同促进相关源域数据向目标域的正迁移，避免异常源域数据向目标域的负迁移。作为参考，通过从源域中手动删除离群值类(不在目标域中)来实现上限性能。我们将此应用于Office-31数据集。如表1所示，我们的SAN的性能比上界差6.71%，而最佳基线ADDA差12.56%。

通过比较表1和表2中SAN变量的结果，我们深入研究了SAN的不同模块。(1) SAN优于SAN-selective，证明使用选择性对抗机制可以选择性地将知识从源数据迁移到目标数据。它可以成功地选择属于由相应的域鉴别器与目标类共享的类的源数据。(2) SAN优于SAN-entropy，特别是在源域和目标域在不同的类数上存在很大分布差距的任务中，如i1000 c84。熵最小化可以有效地降低对每个点预测到不相关类的概率，特别是当不相关类数量较大时，熵最小化可以提高选择性对抗机制的性能。这解释了从SAN-熵到SAN的改进。通过对卷积进行更深入的研究，非常深卷积网络在ImageNet大规模视觉识别挑战[24]中实现了新的技术成果。虽然AlexNet特征的可迁移性已经被广泛量化为[33]，但是非常深的神经网络是否能够学习到更多的可迁移特征，以及特征的可迁移性如何随着非常深的网络的深度而变化，目前还不清楚。在本文中，我们通过对基于VGG-16网络[27]的各种方法进行评估来实现这一目标。从表3可以看出，SAN在VGG-16网络上的性能优于其他所有方法，说明SAN可以推广到不同的基础网络。

4.3. Analysis

Accuracy for Different Numbers of Target Classes: 我们通过改变目标班级的数量来研究更广泛的部分迁移学习。图3(a)显示，当目标类的数量减少时，RevGrad的性能迅速下降，这意味着当域间隙增大时，负迁移变得更加严重。当目标类数从31个减少到20个时，SAN的性能下降，出现负迁移问题，但迁移问题本身仍然比较困难;当目标类的数量从20减少到10时，SAN的性能会提高，其中迁移问题本身变得更容易。当目标类的数量减少时，SAN的性能优于RevGrad的差距会变得更大。当目标班数为31时，SAN在标准迁移学习设置方面也优于RevGrad。

Convergence Performance: 通过训练过程中测试误差的研究，检验了SAN算法的收敛性。如图3(b)所示，由于负迁移，DAN和RevGrad的测试误差不断增加。RTN的收敛速度依赖于熵的最小化，但收敛到比SAN更高的测试误差。SAN收敛速度快，收敛稳定，收敛到最小的测试误差，这意味着可以有效地、稳定地训练它，使正迁移和负迁移同时发生。

Feature Visualization: 我们在图4(A) 4(d)(包含类信息)和图5(A) 5(d)(包含域信息)中可视化了DAN、RevGrad、RTN和SAN对传输任务A 31 w10瓶颈表示形式的[5]的t-SNE嵌入。我们随机选择源域中与目标域不共享的5个类和与目标域共享的5个类。我们可以做出直观的观察。(1)图4(a)显示瓶颈特征混合在一起，说明DAN不能很好地区分源数据和目标数据;图5(a)显示目标数据与所有源类对齐，包括那些异常值，这体现了负迁移问题。(2)图4(b) 4(c)显示RevGrad和RTN都能很好地区分源域，但是大多数目标数据的特征都非常接近源数据，甚至接近错误的源类;图5(b) 5(c)进一步表明，RevGrad和RTN都倾向于将目标数据绘制到接近所有源类的位置，甚至是那些不存在于目标域中的类。因此，由于负迁移，它们对目标数据的性能下降。(3)图4(d)和图5(d)表明，SAN可以区分源和目标中的不同类，而目标数据接近正确的源类，而异常的源类不能影响目标类。这些结果证明了选择性对抗性适应和熵最小化的有效性。

5. Conclusion

提出了一种新的局部迁移学习的选择性对抗网络方法。与以往基于共享标签空间假设匹配整个源域和目标域的对抗性自适应方法不同，该方法通过选择离群源类来避免负迁移，通过最大程度匹配共享标签空间中的数据分布来促进正迁移。我们的方法成功地解决了源标签空间包含目标标签空间的部分迁移学习问题，这一点得到了大量实验的验证。

gdtop818

发布了261 篇原创文章 · 获赞 137 · 访问量 20万+

私信关注

Partial Transfer Learning with Selective Adversarial Networks