本篇是迁移学习专栏介绍的第十七篇论文，由Eric Tzeng, Judy Hoffman等完成发表在ICCV2016上，引用量高达400+，也算是迁移学习领域相当高引的一篇好文章。

Abstract

最近的报告表明，一个训练在大规模数据集上的通用监督深度CNN模型减少了数据集bias，但没有完全消除。在一个新领域中对深度模型进行微调可能需要大量的标记数据，这对于许多应用程序来说根本不可用。我们提出一种新的CNN架构来利用未标记和稀疏标记的目标域数据。我们的方法同时对域不变性进行优化，以方便域迁移，并使用软标签分布匹配soft label distribution matching损失在任务之间传递信息。我们提出的适应方法提供了经验性能，超过了之前发表的两个标准基准视觉领域适应任务的结果，评估跨监督和半监督适应设置。

1. Introduction

考虑一组由制造商训练的机器人，它们可以使用标准的图像数据库识别数千个常见对象，然后运送到全国各地的家庭。当每个机器人开始在自己独特的环境中工作时，由于领域的迁移，其性能可能会下降。很明显，只要从新环境中获得足够多的额外监督数据，就可以恢复原来的性能。然而，目前最先进的识别算法依赖于大容量卷积神经网络(CNN)模型，这种模型需要数百万张监督图像进行初始训练。即使是调整深度模型的传统方法(微调)[14,29]，对于需要调整的每个对象类别，也可能需要成百上千个带标记的示例。

我们有理由假设机器人的新主人会为几种类型的物体贴上一些例子的标签，但假设在新环境中有完全的监督是完全不现实的。因此，我们提出了一种算法，通过使用来自的通用统计数据有效地适应训练(源)和测试(目标)环境在新环境中收集的未标记数据，以及一些来自感兴趣类别子集的人工标记示例。我们的方法跨域跨任务执行迁移学习(参见图1)。

Deep domain confusion: Maximizing for domain invariance

直观地说，domain transfer是通过使源和目标的边缘特征分布尽可能地相似来完成的。任务迁移是通过将在源上学习到的经验类别关联迁移到目标域来实现的。这有助于保持类别之间的关系，例如，瓶子类似于杯子，但与键盘不同。之前的工作提出了使用CNN模型进行域迁移的技术[12,24]，但是没有利用学习到的源语义结构进行任务迁移。

为了支持domain transfer，我们使用未标记的目标数据来计算新环境中估计的边际分布，并显式优化一个特性表示，该特征最小化了源和目标域分布之间的距离。在计算机视觉中，数据集bias的经典例子是Torralba和Efros[31]的“name the dataset” game，它训练分类器来预测图像来自哪个数据集，从而表明视觉数据集是视觉世界的bias样本。事实上，这被证明与领域差异的度量有正式的联系[21,5]。因此，优化domain invariance可以被认为等同于学习预测类标签的任务，同时找到使域尽可能相似的表示形式。这一原理构成了我们所提出的方法的域迁移成分。我们通过对损失进行优化来学习深度表示，损失包括标记数据上的分类错误和domain confusion损失，域混淆损失旨在使域无法区分。

然而，尽管将域混淆最大化会将域的边缘分布拉到一起，但它并不一定会将目标中的类与源中的类对齐。因此，我们还显式地将类别之间的相似性结构从源迁移到目标，并进一步优化表示，以使用少数标记为参考点的目标示例在目标域中生成相同的结构。我们的灵感来自于之前关于提取深层模型的工作[3,16]，并将这些工作中提出的想法扩展到领域适应设置。我们首先计算每个类别中源训练示例的平均输出概率分布(或软标签)。然后，对于每个标记为目标的示例，我们直接优化我们的模型，以匹配类与软标记之间的分布。通过这种方式，我们能够通过将信息传输到目标域中没有显式标签的类别来执行任务适应。

我们联合使用一个新的CNN架构来解决这两个问题，如图2所示。

图2。我们的整体CNN架构的领域和任务迁移。我们对所有源和目标(标记和未标记)数据使用域混淆损失来学习域不变表示。通过对网络的优化，我们同时将学习到的源语义结构迁移到目标域，生成与学习到的仅针对CNN源数据的激活分布相匹配的激活分布。彩色效果最佳。

我们结合领域混淆和软最大交叉熵损失训练网络与目标数据。我们的体系结构可用于解决监督自适应(每个类别中都有少量目标标记数据可用)和半监督自适应(类别子集中有少量目标标记数据可用)。我们提供了对流行的Office benchmark[28]和最近引入的跨数据集集合[30]的全面评估，以便跨视觉上不同的域进行分类。我们证明，通过联合优化领域混淆和匹配软标签，我们能够超越目前最先进的视觉领域适应结果。

2. Related work

近年来，人们提出了许多方法来解决视觉领域的适应问题，通常也称为视觉数据集偏置问题[31]。所有人都认识到源和目标数据表示的分布发生了变化。事实上，域偏移domain shift的大小通常由源和目标子空间表示之间的距离来度量[5,11,21,25,27]。很多方法都试图克服这种差异，通过学习特征空间变换来对齐源和目标表示[28,23,11,15]。对于监督自适应场景，当目标域中有有限数量的标记数据可用时，已经提出了一些方法来学习针对源分类器进行正则化的目标分类器[32,2,1]。其他人则同时学习特征转换和对目标分类器进行正则化[18,10]。

最近，基于CNN的监督特征表示被证明对各种视觉识别任务都非常有效[22,9,14,29]。特别是，使用深度表示极大地降低了分辨率和光照对域迁移的影响[9,19]。并行CNN结构，如暹罗网络，已被证明是学习不变表示的有效方法[6,8]。然而，训练这些网络需要为每个训练实例添加标签，因此不清楚如何将这些方法扩展到无监督或半监督设置。研究了多模态深度学习体系结构，以学习对不同输入模式[26]不变的表示形式。然而，这种方法主要是在生成环境中运行的，因此没有充分利用监督CNN表示的表示能力。

[7]提出了一种联合源和目标CNN架构的训练方法，但限于两层，因此使用更深层次的架构[22]，在大型辅助数据源(如ImageNet[4])上进行预训练的方法明显优于[22]。[13]提出了一种基于去噪自动编码器的预训练方法，并在此基础上训练了一种具有MMD域混淆损失的双层网络。这有效地学习了一个域不变表示，但是，由于学习网络相对较浅，它缺乏通过使用有监督的深度CNN直接优化分类目标来学习的强语义表示。

在模型压缩compression或蒸馏distillation的背景下，研究了训练过程中使用分类器输出分布而不是类别标签的方法[3,16]。然而，我们是第一个将此技术应用于领域自适应设置的人，以便在领域之间迁移类关联class correlations。

其他著作也同时探索了直接优化域不变性表示的思想[12,24]。然而，它们要么使用较弱的域不变性度量，要么使用比我们提出的方法鲁棒性更差的优化方法，而且它们不尝试解决半监督设置下的任务迁移问题。

3. Joint CNN architecture for domain and task transfer

我们首先概述一下我们的卷积网络(CNN)体系结构，如图2所示，它学习了一种表示方法，这种表示方法对可视域进行对齐，并将语义结构从标记良好的源域迁移到标记稀疏的目标域。我们假设访问有限数量的标记目标数据，可能只访问感兴趣的类别的子集。由于类别子集上的标签有限，对可用目标数据进行微调的传统域传输方法[14,29,17]是无效的。相反，由于源标记数据共享目标域的标记空间，所以我们使用源数据指导相应分类器的培训。

我们的方法将标记的源数据 $\left\{x_{S}, y_{S}\right\}$ (蓝色框图2)和目标数据 $\left\{x_{T}, y_{T}\right\}$ (绿色框图2)作为输入，其中仅为目标示例的子集提供了标记 $y_{T}$ 。我们的目标是产生一个类别分类器 $\theta_{C}$ ，作用于图像特征表示 $f\left(x ; \theta_{\mathrm{repr}}\right)$ 参数化表示参数，并可以在测试时间正确分类目标的例子。对于K个类别的设置，让我们期望的分类目标定义为标准的softmax损失

$\mathcal{L}_{C}\left(x, y ; \theta_{\mathrm{repr}}, \theta_{C}\right)=-\sum_{k} \mathbb{1}[y=k] \log p_{k}$

p是将softmax分类器激活， $p=\operatorname{softmax}\left(\theta_{C}^{T} f\left(x ; \theta_{\mathrm{repr}}\right)\right)$ 。

我们可以根据式(1)利用已有的源标记数据训练我们的表示和分类器参数，但这往往导致对源分布的过度拟合，导致在目标域中识别时测试时性能下降。但是，我们注意到，如果源域和目标域非常相似，那么在源域上训练的分类器将在目标域上执行得很好。事实上,它是足够的源和目标数据是相似的在学习代表， $\theta_{\text { repr }}$ 。

灵感来自数据集名称的游戏Torralba和埃[31],我们可以直接训练一个域分类器θD来确定一个训练例子来源于源或目标域的特征表示。直观地说，如果我们选择的表示法受到域移位的影响，那么它们将位于特征空间的不同部分，分类器将能够轻松地分离域。我们用这个概念来添加一个新的域混乱 $\mathcal{L}_{\mathrm{conf}}\left(x_{S}, x_{T}, \theta_{D} ; \theta_{\mathrm{repr}}\right)$ 我们的目标,直接优化我们的表现,减少源和目标之间的差异分布。这一损失在3.1节中有更详细的描述。

可以应用领域混淆来学习一种表示方法，该方法在没有任何目标标记数据的情况下对源数据和目标数据进行对齐。然而，我们也假定在目标域 $y_{T}$ 中有少量稀疏标签。在这种情况下，一种简单的方法是将目标标记数据和源标记数据合并到式(1)1的分类目标中。然而，使用硬类别标签进行微调限制了单个训练示例的影响，使得网络很难从有限的标记数据中学习泛化。此外，当仅对类别的子集提供标记数据时，使用硬标签进行微调是无效的。

对于我们的方法，我们从最近的网络蒸馏工作中得到了灵感[3,16]，这些工作表明，通过用原来大型模型的softmax激活替换硬标签，大型网络可以蒸馏成更简单的模型。这种修改被证明是至关重要的，因为分布包含了关于类别之间关系的关键信息，并且在培训过程中增加了额外的结构。本质上，由于每个训练示例都与一个输出分布配对，因此它不仅提供了关于分类器所属的类别的有价值的信息，而且还提供了分类器训练来识别的彼此类别的信息。

因此，我们建议使用标记目标数据通过软标记损失 $\mathcal{L}_{\text { soft }}\left(x_{T}, y_{T} ; \theta_{\text { repr }}, \theta_{C}\right)$ 。这种损失将训练网络参数生成一个软标签激活，该激活与训练用于分类源数据的网络上源示例的平均输出分布相匹配。这一损失在第3.2节中有更详细的描述。通过训练网络匹配目标数据上期望的源输出分布，将学习到的类间关联从源域迁移到目标域的实例。这直接将有用的信息从来源传递到目标，比如书架看起来更像文件柜而不是自行车。

我们的全部方法然后最小化关节损失函数

$\begin{array}{r}{\mathcal{L}\left(x_{S}, y_{S}, x_{T}, y_{T}, \theta_{D} ; \theta_{\text { repr }}, \theta_{C}\right)=} \\ {\mathcal{L}_{C}\left(x_{S}, y_{S}, x_{T}, y_{T} ; \theta_{\text { repr }}, \theta_{C}\right)} \\ {+\lambda \mathcal{L}_{\text { conf }}\left(x_{S}, x_{T}, \theta_{D} ; \theta_{\text { repr }}\right)} \\ {+\nu \mathcal{L}_{\text { soft }}\left(x_{T}, y_{T} ; \theta_{\text { repr }}, \theta_{C}\right)}\end{array}$

在超参数 $\lambda \text { and } \nu$ 确定强烈领域混乱和软标签影响的优化。

我们的任务迁移领域混淆和软标签丢失的思想是通用的，可以应用于任何CNN分类体系结构。为了我们的实验和本文的详细讨论，我们修改了标准Krizhevsky架构[22]，它有五个卷积层(conv1 conv5)和三个完全连接层(fc6 fc8)。表示参数 $\theta_{\text { repr }}$ 对应于网络层1-7，和分类参数 $\theta_{C}$ 对应层8。对于本节的其余部分，我们将进一步提供关于我们新的损失定义和模型实现的详细信息。

3.1. Aligning domains via domain confusion

在本节中，我们详细描述了我们提出的领域混淆损失目标。回想一下，我们引入域混淆损失作为学习域不变表示的一种方法，因此将允许我们更好地利用使用标记源数据训练的分类器。如果使用该表示方法训练的分类器不能将示例与两个域区分开来，则我们认为该表示方法是域不变的。

为此，我们添加一个额外的域分类层，如图2用fcD表示，使用参数 $\theta_{D}$ 。这一层简单地使用图像对应的域作为其标签执行二进制分类。 $\theta_{\text { repr }}$ 特定特性表征,我们评估其域不变性表示通过学习最好的域分类器。这可以通过优化以下目标来学习，其中 $y_{D}$ 表示示例来自的领域

$\mathcal{L}_{D}\left(x_{S}, x_{T}, \theta_{\mathrm{repr}} ; \theta_{D}\right)=-\sum_{d} \mathbb{1}\left[y_{D}=d\right] \log q_{d}$

将softmax对应的域分类器激活： $q=\operatorname{softmax}\left(\theta_{D}^{T} f\left(x ; \theta_{\mathrm{repr}}\right)\right)$ 。

特定域分类器， $\theta_{D}$ ，我们现在可以介绍我们的损失旨在最大限度地混淆这两个领域之间的交叉熵通过计算输出预测域标签和一个均匀分布域标签

$\mathcal{L}_{\mathrm{conf}}\left(x_{S}, x_{T}, \theta_{D} ; \theta_{\mathrm{repr}}\right)=-\sum_{d} \frac{1}{D} \log q_{d}$

这种领域混淆损失试图通过找到一个最佳领域分类器性能较差的表示来学习领域不变性。

理想情况下，我们希望同时最小化表示和域分类器参数的(3)和(4)式。然而，这两个损失是直接对立的:学习一个完整的域不变表示意味着域分类器必须做得很差，学习一个有效的域分类器意味着表示不是域不变的。而不是在全局范围内优化 $\theta_{D}$ 和 $\theta_{\text { repr }}$ ，我们不执行给定迭代更新以下两个目标从上一次迭代的固定参数：式子5,6

$\begin{array}{l}{\min _{\theta_{D}} \mathcal{L}_{D}\left(x_{S}, x_{T}, \theta_{\mathrm{repr}} ; \theta_{D}\right)} \\ {\min _{\theta_{\mathrm{ronf}}} \mathcal{L}_{\mathrm{conf}}\left(x_{S}, x_{T}, \theta_{D} ; \theta_{\mathrm{repr}}\right)}\end{array}$

这些损失很容易实现标准深度学习框架,设置后正常学习速率方程(5)仅更新 $\theta_{D}$ 和 $\theta_{\text { repr }}$ 和方程(6)只更新,更新可以通过执行标准的反向传播。这些更新一起确保我们学习了一个域不变的表示。

3.2. Aligning source and target classes via soft labels

在训练网络混淆域行为以对齐它们的边缘分布时，并不能保证每个域之间类的对齐。为了确保类之间的关系在源和目标之间保持不变，我们根据软标签而不是图像类别硬标签对网络进行微调。

我们为类别k定义了一个软标签，它是类别中所有源实例的软最大值的平均值k，如图3所示，并将此平均值表示为 $l^{(k)}$ 。注意，由于源网络纯粹是为了优化分类目标而训练的，所以每个 $z_{S}^{i}$ 上的一个简单的softmax将通过生成一个非常峰值的分布来隐藏很多有用的信息。相反,我们使用高温softmax $\tau$ ，以便相关类整合期间有足够的概率质量有影响。通过计算每个类别的软标签，我们现在可以定义软标签的损失

$\mathcal{L}_{\mathrm{soft}}\left(x_{T}, y_{T} ; \theta_{\mathrm{repr}}, \theta_{C}\right)=-\sum_{i} l_{i}^{\left(y_{T}\right)} \log p_{i}$

p表示软激活的目标图像， $p=\operatorname{softmax}\left(\theta_{C}^{T} f\left(x_{T} ; \theta_{\mathrm{repr}}\right) / \tau\right)$ 。上述损失对应于特定目标图像的软激活与对应于该图像类别的软标签之间的交叉熵损失，如图4所示。

要了解为什么这将有所帮助，请考虑特定类别的软标签，如瓶子。软标签 $l(\text { bottle })$ 是一个K维向量，其中每个维表示瓶子与K个类别的相似性。在这个例子中，瓶子的软标签在杯子上的重量要比在键盘上的重，因为瓶子和杯子的重量更多视觉上相似。因此，使用这种特殊的软标签进行软标签培训，可以直接强化瓶子和杯子在特征空间中的距离应该比瓶子和键盘更近的关系。

使用这种软标签损失的一个重要好处是，我们确保没有任何标签目标数据的类别的参数仍然更新为输出非零概率。我们将在第4节中探讨这一好处，在第4节中，我们使用来自目标类别子集的标签来训练网络，并发现即使只评估未标记的类别，性能也有显著的改进。

4. Evaluation

为了分析我们的方法的有效性，我们在一个用于视觉领域适应的标准基准数据集Office数据集和一个新的大规模跨数据集领域适应挑战上对其进行了评估。

4.1. Adaptation on the Office dataset

Office数据集是来自三个不同域(Amazon、DSLR和Webcam)的图像的集合，其中最大的域有2817个标记为图像[28]。数据集中的31个类别由办公室设置中常见的对象组成，如键盘、文件柜和笔记本电脑。我们在两种不同的设置中评估我们的方法

Supervised adaptation 所有类别的n标记训练数据在源中可用，在目标中可用。
Semi-supervised adaptation (task adaptation) 标记的训练数据在源文件中可用，并且很少用于目标类别的子集。

在所有实验中，我们使用释放的CaffeNet[20]权值初始化conv1 fc7的参数。然后利用源标记数据对网络进行进一步微调，生成软标记分布，并将学习到的源CNN权值作为训练方法的初始参数。所有的实现都是使用开源的Caffe[20]框架实现的，培训所需的网络定义文件和交叉熵损失层将在验收后发布。我们优化网络使用的学习速率0.001并设置超参数 $\lambda=0.01$ (confusion)和 $\nu=0.1$ (soft)。

对于这6个域的每一个移位，我们通过5个火车/测试分割进行评估，这些分割是通过从每个域的完整图像集中采样生成的。在源域中，我们遵循此数据集的标准协议，并通过对Amazon域的每个类别抽取20个示例，对DSLR和Webcam域的每个类别抽取8个示例来生成分割。

我们首先给出监督设置的结果，其中为目标域中的每个类别提供了3个带标记的示例。根据标准协议，我们报告其余未标记图像的准确性使用数据集[28]。除了各种基线之外，我们还报告了表1中仅对软标签进行微调的数字，以及带有域混淆的软标签的数字。由于Office数据集是不平衡的，我们报告了多类精度，这些精度是通过独立计算每个类的精度得到的，然后对所有31个类别进行平均。

我们发现，与硬标签培训相比，使用软标签或领域混淆进行微调可以在6班中的5班中提供一致的改进。将软标签与域混淆组合在一起，平均会产生稍微高的性能。这个结果遵循一个直观的概念，即当有足够的目标标记示例时，直接优化联合源和目标分类目标(源+目标CNN)是一个强大的基线，因此使用我们的任何一个新损失都增加了足够的正则化来提高性能。

接下来，我们使用半监督自适应设置进行实验。我们考虑这样一种情况，即培训数据和标签对于目标域中的某些类别(但不是所有类别)是可用的。我们感兴趣的是能否将从标记类中学习到的信息传递到未标记类中。

为此，我们考虑按照Office dataset[28]引入的标准协议，从31个类别中仅15个类别中为每个类别提供10个标记为目标的示例。然后，我们对其余16个类别的分类性能进行评估，这些类别在培训时没有可用的数据。

在表2中，我们给出了16个已标注类别的多类精度，并将我们的方法与之前的域适应方法[18]以及只训练了源代码的CNN进行了比较。注意，由于这里的性能仅在数据集中类别的一个子集上计算，因此不应该将该表中的数字与表1中的监督设置直接进行比较。

我们发现我们的方法的所有变化(只有软标签丢失，只有域混淆，以及两者一起)都优于基线。与完全监督的情况相反，这里我们注意到域混淆和软标签对我们方法的总体性能改进都有重要的贡献。这是因为我们现在评估的类别缺乏标记的目标数据，因此网络不能仅通过分类目标隐式地强制域不变性。另外，通过对相关任务的软标签培训，我们得到了改善，说明信息在任务之间得到了有效的传递。

在图5中，我们展示了Amazon Webcam shift的例子，在这个例子中，我们的方法正确地对来自已持有对象类别的图像进行分类，而基线则没有。我们发现，我们的方法能够始终如一地克服错误情况，如笔记本电脑它们之前被误认为是信件托盘，或者是黑色的马克杯，被误认为是黑色的电脑鼠标。

4.2. Adaptation between diverse domains

为了获得更大、更清晰的域，我们在最近的跨数据集分析测试平台[30]上进行了测试，[30]从计算机视觉数据集中共享的类中收集图像。我们使用这个测试台的密集版本，它包含ImageNet、Caltech-256、SUN和Bing数据集之间共享的40个类别，并以ImageNet为源、Caltech256为目标进行特定的评估。

我们遵循[30]中概述的协议，在40个共享类别中选择来自ImageNet的5534张图片和来自Caltech-256的4366张图片，生成5个分割。然后将每个分割平均分为一个训练集和一个测试集。然而，由于我们最感兴趣的是在目标数据有限的情况下进行评估，所以我们将目标训练集进一步细分为更小的集合，每个类别只有1、3和5个标记的示例。

这个评估的结果如图6所示。我们将我们的方法与仅使用源数据(使用源和目标标记数据)进行微调的CNNs进行了比较。与之前的监督自适应实验相反，我们的方法明显优于两个基线。我们看到，我们的整个体系结构，结合了领域混淆和软标签丢失，整体性能最好，并且能够在目标中没有标签示例的情况下运行(对应于x轴上点0处的红线)。我们发现，当目标域中每个类别的标记训练示例很少时，我们的方法的最大好处就产生了。当我们增加目标中标记的示例的数量时，标准微调策略开始执行探讨适应方法的性能。这表明，当每个类别有合理数量的训练示例时，直接联合源和目标微调是一种可行的适应方法。相比之下，仅对目标示例进行微调，对于每个类别的1、3和5个标记示例，其准确率分别为 $36.6 \pm 0.6,60.9 \pm 0.5, \text { and } 67.7 \pm 0.5$ 对于类别1。所有这些数字都低于纯源模型，表明在有限的训练数据的设置中，适应性是至关重要的。

最后，我们注意到我们的结果明显高于[30]报告的24.8%的结果，尽管使用的训练数据要少得多。这一差异可以用他们对SURF BoW功能的使用来解释，这表明CNN功能在适应任务中是一个强大得多的功能。

5. Analysis

实验结果表明，该方法在多种领域自适应设置下均能提高分类性能。我们现在对我们的方法进行额外的分析，确认我们的声明，即它显示域不变性，并在任务之间传输信息。

5.1. Domain confusion enforces domain invariance

我们首先评估域混淆在学习域不变表示时的有效性。如前所述，如果最优分类器难以预测图像来自哪个域，则我们认为表示是域不变的。因此，对于我们用领域混淆损失学习的表示，我们期望一个训练有素的领域分类器性能很差。

我们训练了两个支持向量机(SVMs)来将图像分类为域:一个使用基线CaffeNet fc7表示，另一个使用我们的fc7学习与领域混淆。这些SVMs使用160张图像进行训练，其中80张来自Amazon, 80张来自Webcam，然后在这些域的其余图像上进行测试。我们绘制每个测试图像的分类器得分，如图7所示。

很明显，域混淆表示是域不变的，这使得分离两个域变得更加困难，域混淆表示的测试精度只有56%，并不比随机好多少。相比之下，在基线CaffeNet表示上，域分类器可以达到99%的测试精度。

5.2. Soft labels for task transfer

我们现在研究软标签在类别间传递信息的效果。我们考虑了Amazon Webcam从上一节的半监督适应实验中迁移过来的情况。回想一下，在这个设置中，我们只能访问一半类别的目标标记数据。

我们使用来自源域的软标签信息来提供关于未标记目标示例的已标注类别的信息。图8检查了来自helout category monitor的一个目标示例。培训期间无贴标的目标监测器;然而，如图8的右上角所示，笔记本电脑的软标签在训练中出现，并且给monitor类分配了一个相对较高的权重。因此，软标签微调允许我们利用这些类别相似的事实。我们看到基线模型将此图像错误地分类为环形绑定器，而我们的软标签模型正确地分配了monitor标签。

6. Conclusion

我们提出了一种CNN架构，它可以有效地适应每个目标类别中有限或没有标记数据的新领域。我们通过一个新颖的CNN来实现这一点该架构同时优化了域的不变性，便于域之间的迁移，同时以跨熵软标签损失的形式在域之间传递任务信息。通过使用两个标准域适应基准数据集进行实验，我们演示了我们的体系结构在监督和半监督设置中改进适应性能的能力。在半监督的适应设置中，我们看到在Office数据集中四个最具挑战性的转换的基线上，平均相对提高13%。总的来说，当目标域中每个类别的标记数据有限或没有可用标记数据时，我们的方法可以很容易地实现为备选微调策略。

gdtop818

发布了261 篇原创文章 · 获赞 137 · 访问量 20万+

私信关注

Simultaneous Deep Transfer Across Domains and Tasks