本篇是迁移学习专栏介绍的第七篇论文，清华大学助理教授Mingsheng Long (龙明盛)发表在国际机器学习顶级会议JMLR 2015上的深度适配网络(Deep Adaptation Network, DAN)。前作DDC：Deep domain confusion: Maximizing for domain invariance

DAN是在DDC的基础上发展起来的，它很好地解决了DDC的两个问题：

一是DDC只适配了一层网络，可能还是不够，因为Jason的工作中已经明确指出不同层都是可以迁移的。所以DAN就多适配几层；
二是DDC是用了单一核的MMD，单一固定的核可能不是最优的核。DAN用了多核的MMD（MK-MMD），效果比DDC更好。

DAN的创新点是多层适配和多核MMD。下图是DAN的网络结构示意图。我们针对两个方面分别介绍。

Abstract

最近的研究表明，深度神经网络可以学习可转移的特征，这些特征可以很好地推广到新的领域适应任务。然而，随着深度特征在网络中最终由一般特征向特定特征过渡，随着domain差异的增大，深度特征在更高层次上的可移植性显著下降。因此，形式化地减少数据集偏差，增强任务特定层的可移植性是非常重要的。

本文提出了一种新的深度自适应网络(DAN)结构，将深度卷积神经网络推广到领域自适应场景。在DAN中，所有特定于任务的层的隐藏表示都嵌入到一个可复制的内核Hilbert空间中，在这个空间中可以显式匹配不同域分布的平均嵌入。采用均值嵌入匹配的多核优化选择方法，进一步减小了domain间的差异。DAN可以在有统计保证的情况下学习可转移的特性，并且可以通过核嵌入的无偏估计进行线性扩展。大量的经验证据表明，该架构在标准域适应基准上产生了最先进的图像分类错误率。

1. Introduction

有限训练样本的监督学习机泛化误差较大，人工标注不同应用领域的足够训练数据可能难以实现。因此，有动机建立有效的算法来降低标签成本，通常是利用现成的标签从相关源域到目标域的数据。领域自适应解决了我们拥有来自两个相关领域但分布不同的数据的问题。领域差异是跨领域调整预测模型的主要障碍。例如，在人工标注的图像上训练的对象识别模型，在姿态、遮挡或光照发生显著变化的情况下，可能不能很好地概括测试图像。领域自适应通过研究领域不变结构，建立起连接分布差异较大的不同领域(Pan & Yang, 2010)。

建立知识转移的主要方法之一是从数据中学习域不变模型，该模型可以在同构的潜在特征空间中架起源域和目标域之间的桥梁。在这个方向上，之前的一系列卓有成效的工作集中在通过联合最小化domain差异的距离度量来学习浅特征(Pan et al., 2011; Long et al., 2013; Baktashmotlagh et al., 2013; Gong et al., 2013; Zhang et al., 2013; Ghifary et al., 2014; Wang & Schneider, 2014)。然而，最近的研究表明，深度神经网络可以学习领域适应的更可转移的特征 (Glorot et al., 2011; Donahue et al., 2014; Yosinski et al., 2014)，在一些领域适应数据集上取得了突破性的成果。深度神经网络能够对数据样本下的disentangle exploratory factors进行分离，并根据特征与不变因子的相关性对特征进行层次划分，使表征对噪声具有鲁棒性。

虽然深度神经网络在学习一般特征和可转移特征方面更为强大，但最新的研究结果也表明，深度特征最终必须沿着网络从一般特征过渡到特定特征，并且随着domain差异的增大，特征在较高层次的可转移性显著下降。换句话说，在更高层次的网络中计算的特征必须在很大程度上依赖于特定的数据集和任务(Yosinski et al., 2014)，这些是特定于任务的特征，不能安全地转移到新奇的任务。另一个有趣的现象是，将变分因子分解到网络的更高层次可能会扩大域差异，因为不同的域与新的深层表示变得更加紧密，并且更加相互区分(Glorot et al., 2011)。虽然深度特征对于识别具有显著性，但扩大的数据集偏差可能会恶化领域适应性能，导致目标任务的统计无界风险(Mansour et al., 2009; Ben-David et al., 2010)。

在借鉴文献对深度神经网络可移植性最新认识的基础上，提出了一种新的深度自适应网络(DAN)体系结构，将深度卷积神经网络推广到领域自适应场景。该工作的主要思想是通过显式地减小domain差异，增强深度神经网络任务特定层的特征转移能力。为了实现这个目标，将所有特定于任务的层的隐藏表示嵌入到一个可复制的内核Hilbert空间中，在这个空间中可以显式匹配不同域分布的平均嵌入。由于平均嵌入匹配对核选择敏感，因此设计了一种最优的多核选择方法，进一步减小了域间的差异。此外，我们实现了一个线性时间无偏估计的内核均值嵌入，以支持可伸缩的培训，这是非常理想的深度学习。最后，由于使用ImageNet (Russakovsky et al., 2014)等大型存储库预训练的深度模型对于一般任务具有代表性(Yosinski et al., 2014; Hoffman et al., 2014)，提出的DAN模型由AlexNet模型(Krizhevsky et al., 2012)对ImageNet进行预训练，并在Caffe中实现(Jia et al., 2014)。综合的经验证据表明，所提出的体系结构优于在标准领域适应基准上评估的最新结果。

本文的贡献总结如下：

提出了一种新的领域自适应深度神经网络结构，该结构中与任务特定特征对应的所有层都是分层自适应的，从而从深度自适应中获益。
探索多内核自适应深度表示，与单一内核方法相比，大大提高了自适应效率。我们的模型可以产生无偏的深层特征与统计保证。

2. Related Work

一个相关的文献是转移学习(Pan & Yang, 2010)，它构建了连接不同领域或任务的模型，明确地考虑了领域差异。转移学习旨在减轻机器学习中手工标记的工作量(Pan et al., 2011; Gong et al., 2013; Zhang et al., 2013; Wang & Schneider, 2014)，计算机视觉(Saenko et al., 2010; Gong et al., 2012; Baktashmotlagh et al., 2013; Long et al., 2013)等。人们普遍认为，应该对不同domain的概率分布的domain差异进行正式的测量和减小。主要的瓶颈是如何有效地匹配不同的域分布。大多数现有的方法都学习一种新的浅层表示模型，在该模型中可以显式地减少域间的差异。然而，如果不学习能够抑制领域特定因素的深层特征，那么浅层特征的可移植性就会受到任务特定可变性的限制。

深度神经网络学习非线性表示法，在数据样本背后分离并隐藏不同的变异解释因子(Bengio et al., 2013)。习得的深层表征表现出不同群体下的不变因素，并且可以从原始任务转移到相似的新任务(Yosinski et al., 2014)。因此，深度神经网络已被探索用于领域适应(Glorot et al., 2011; Chen et al., 2012)，多模态和多源学习问题(Ngiam et al., 2011; Ge et al., 2013)，其中取得了显著的性能收益。然而，所有这些方法都依赖于一个假设，即深度神经网络可以学习跨不同任务的不变表示。在现实中，领域差异可以通过深度神经网络得到缓解，但不能消除(Glorot et al., 2011)。数据集的转移对深度网络的可移植性构成了瓶颈，导致目标任务的统计上的无界风险(Mansour et al., 2009; Ben-David et al., 2010).。

我们的工作主要受到Yosinski等人(2014)的推动，他们全面探索了深度卷积神经网络的特征转移能力。该方法侧重于一个不同的场景，其中学习任务跨域不同，因此它需要足够的目标标记示例，以便源网络能够调整到目标任务。在许多实际问题中，标记数据通常是有限的，特别是对于一个新的目标任务，因此该方法不能直接适用于领域适应。在浅神经网络背景下学习域不变特征方面，最近有几项研究(Ajakan et al., 2014; Ghifary et al., 2014)。由于浅层建筑的容量有限，这些方案的性能并没有超过深层CNN (Krizhevsky et al., 2012)。Tzeng等人(2014)提出了一种DDC模型，该模型向深度CNN添加了一个自适应层和一个数据集移位损失，用于学习域不变表示。虽然性能得到了提高，但DDC只适应网络的单层，这可能是有限制的，因为在多层中隐藏的特性是不可转移的(Yosinski et al., 2014)。DDC还受到概率分布的次优核匹配(Gretton et al., 2012b)及其二次计算成本的限制，限制了可移植性和可伸缩性。

3. Deep Adaptation Networks

在无监督域自适应中，给出了带 $n_{s}$ 标记的源域 $\mathcal{D}_{s}=\left\{\left(\mathbf{x}_{i}^{s}, y_{i}^{s}\right)\right\}_{i=1}^{n_{s}}$ ，带 $\eta_{t}$ 标记的目标域 $\mathcal{D}_{t}=\left\{\mathbf{x}_{j}^{t}\right\}_{j=1}^{n_{t}}$ 。源域和目标域分别用概率分布p和q表示。我们的目标是构建一个深层神经网络能够学习转移特性，桥跨域的差异，并构建一个分类器 $y=\theta(\mathbf{x})$ ，可以最小化目标风险 $\epsilon_{t}(\theta)=\operatorname{Pr}_{(\mathbf{x}, y) \sim q}[\theta(\mathbf{x}) \neq y]$ 使用源代码监督。在半监督自适应中，当目标有少量带标记的例子时，我们用 $\mathcal{D}_{a}=\left\{\left(\mathbf{x}_{i}^{a}, y_{i}^{a}\right)\right\}$ 表示源域和目标域的 $n_{a}$ 注释的例子。

3.1. Model

MK-MMD 领域适应具有挑战性，因为目标领域没有(或只有有限的)标记信息。为了解决这个问题，许多现有的方法旨在通过源误差加上源和目标之间的差异度量来约束目标误差(Ben-David et al.， 2010)。在双样本检验中，我们探索了两类统计量，即分别从p和q生成的样本中，对零假设p = q做出接受或拒绝决策:能量距离和最大平均差异(MMD) (Sejdinovic et al.， 2013)。本文主要研究Gretton et al. (2012b)提出的多核MMD (MK-MMD)变体，其形式化的目的是共同最大化双样本测试功率，最小化II类误差，即，拒绝错误的零假设的失败。

用 $\mathcal{H}_{k}$ 表示具有特征核k的再生核希尔伯特空间(RKHS)。分布p在Hk中的平均嵌入是一个独特的元素k(p)，使得 $\mathbf{E}_{\mathbf{x} \sim p} f(\mathbf{x})=\left\langle f(\mathbf{x}), \mu_{k}(p)\right\rangle_{\mathcal{H}_{k}}$ 对于所有 $f \in \mathcal{H}_{k}$ 。定义概率分布p与q之间的MK-MMD $d_{k}(p, q)$ 为p与q的平均嵌入距离RKHS，定义MK-MMD的平方公式为

$d_{k}^{2}(p, q) \triangleq\left\|\mathbf{E}_{p}\left[\phi\left(\mathbf{x}^{s}\right)\right]-\mathbf{E}_{q}\left[\phi\left(\mathbf{x}^{t}\right)\right]\right\|_{\mathcal{H}_{k}}^{2}$

最重要的性质是p = q iff $d_{k}^{2}(p, q)=0$ (Gretton et al.， 2012a)。内核特点与功能相关的地图 $\phi, k\left(\mathbf{x}^{s}, \mathbf{x}^{t}\right)=\left\langle\phi\left(\mathbf{x}^{s}\right), \phi\left(\mathbf{x}^{t}\right)\right\rangle$ ，被定义为m的凸组合PSD内核 $\left\{k_{u}\right\}$ ，

$\mathcal{K} \triangleq\left\{k=\sum_{u=1}^{m} \beta_{u} k_{u} : \sum_{u=1}^{m} \beta_{u}=1, \beta_{u} \geqslant 0, \forall u\right\}$

约束系数 $\left\{\beta_{u}\right\}$ 的实施保证派生multi-kernel k是特点。Gretton等人(2012b)从理论上研究了核函数采用p和q的平均嵌入量是保证测试功率和低测试误差的关键。多内核k可以利用不同的内核来增强MK-MMD测试，从而为优化内核选择提供了一种原则性的方法。

控制域差异的可行策略之一是找到一个源域和目标域相似的抽象特征表示(Ben-David et al.， 2010)。尽管这一观点已经在几篇论文中被探讨过(Pan et al.， 2011;张等，2013;王,(Schneider, 2014)，到目前为止，还没有尝试在深度神经网络中通过MK-MMD增强特征表示的可移植性。

Deep Adaptation Networks (DAN

在本文中，我们探讨了基于mk - mmd的自适应方法在学习可转移特征的深度网络中的应用。我们从深度卷积神经网络(CNN)开始(Krizhevsky et al.， 2012)，这是一个适应新任务的强模型(Donahue et al.， 2014;霍夫曼等人，2014)。主要的挑战是目标域没有或只有有限的标记信息，因此通过微调直接使CNN适应目标域是不可能的，或者容易过度拟合。利用领域自适应的思想，我们将目标对准一个能够同时利用源标记数据和目标未标记数据的深度自适应网络(DAN)。图1给出了所提议的DAN模型的说明。

图1
用于学习可转移特性的DAN体系结构。自深特性最终沿着网络过渡从一般到具体,由卷积(1)特征提取层conv1 conv3一般,因此这些层被冻结,(2)的特征提取层conv4 conv5略低于转让,因此这些层都学会了通过微调,和(3)完全连接层fc6 fc8量身定做符合特定的任务,因此他们不转让,应与MK-MMD改编

我们扩展了AlexNet架构(Krizhevsky et al.， 2012)，它由5个卷积层(conv1 conv5)和3个全连接层(f c6 f c8)组成。每个f c层学习非线性映射 $\mathbf{h}_{i}^{\ell}=f^{\ell}\left(\mathbf{W}^{\ell} \mathbf{h}_{i}^{\ell-1}+\mathbf{b}^{\ell}\right)$ ， $\mathbf{h}_{i}^{\ell}$ 是 $\ell t h$ 隐藏的代表点 $\mathbf{X}_{i}$ ， $\mathbf{W}^{\ell} \text { and } \mathbf{b}^{\ell}$ 是 $\ell t h$ 层的权重和偏差，作为rectifier单元和激活函数 $f^{\ell}(\mathbf{x})=\max (\mathbf{0}, \mathbf{x})$ ，隐藏层或softmax单位 $f^{\ell}(\mathbf{x})=e^{\mathbf{x}} / \sum_{j=1}^{|\mathbf{x}|} e^{x_{j}}$ 为输出层。让 $\Theta=\left\{\mathbf{W}^{\ell}, \mathbf{b}^{\ell}\right\}_{\ell=1}^{l}$ 表示所有的CNN参数，CNN经验误差是

$\min _{\Theta} \frac{1}{n_{a}} \sum_{i=1}^{n_{a}} J\left(\theta\left(\mathbf{x}_{i}^{a}\right), y_{i}^{a}\right)$

J是cross-entropy损失函数， $\theta\left(\mathbf{x}_{i}^{a}\right)$ 是CNN的条件概率分配 $\mathbf{x}_{i}^{a}$ 到标签 $y_{i}^{a}$ 。我们不会讨论如何计算卷积层，因为我们不会在这些层中实施分布适应正则化，因为卷积层可以学习到一般的特征，这些特征在conv1 conv3层中往往是可转移的，而在conv4-conv5层中略有领域偏差(Yosinski et al.， 2014)。因此，在对预训练的AlexNet进行目标适配时，我们选择了freeze conv1 conv3和fine-tune conv4 conv5来保持脆弱协同适配的有效性(Hinton et al.， 2012)。

在标准CNNs中，深层特征最终必须由网络的最后一层由一般特征过渡到特定特征，而可转移性缺口随着区域差异的增大而增大，在传输较高的f c6 f c8层时，可转移性缺口变得尤其大(Yosinski et al.， 2014)。换句话说，fc层是针对其原始任务进行定制的，其代价是降低目标任务的性能，因此不能在有限的目标监督下通过微调将它们直接转移到目标域中。在本文中，我们对标注示例的源进行了微调，要求在完全连接层f c6 f c8的隐藏表示下，源和目标的分布变得相似。这可以通过在CNN的risk(3)中加入一个基于mk - mmd的多层自适应正则化器(1)来实现：

$\min _{\Theta} \frac{1}{n_{a}} \sum_{i=1}^{n_{a}} J\left(\theta\left(\mathbf{x}_{i}^{a}\right), y_{i}^{a}\right)+\lambda \sum_{\ell=l_{1}}^{l_{2}} d_{k}^{2}\left(\mathcal{D}_{s}^{\ell}, \mathcal{D}_{t}^{\ell}\right)$

其中 $\lambda>0$ 是一个惩罚参数，l1和l2是正则化器有效的层指标。在DAN的实现中，我们设置 $l_{1}=6 \text { and } l_{2}=8$ ，尽管也可以进行不同的配置，但这取决于标记的源数据集的大小和需要微调的层中的参数数量 $\mathcal{D}_{*}^{\ell}=\left\{\mathbf{h}_{*}^{* \ell}\right\}$ 是目标域和源域样本的第 $\ell t h$ 层隐藏表征， $d_{k}^{2}\left(\mathcal{D}_{s}^{\ell}, \mathcal{D}_{t}^{\ell}\right)$ 是在源和目标之间的MK-MMD评估第 $\ell t h$ 层表征。

训练一个深度CNN需要大量的带标签的数据，这对于许多领域的适应问题来说是禁止的，因此我们从一个在ImageNet 2012上预先训练的AlexNet模型开始，并像Yosinski等人(2014)那样对其进行微调。使用所提出的DAN优化框架(4)，我们能够学习从源域到相关目标域的可转移特性。学习的代表性可以突出受益于CNN，并且是无偏的，这受益MK-MMD。DAN与相关文献的两个重要区别在于:(1)多层适配。由(Yosinski et al.， 2014)可知，conv4 conv5上的特征转移性变差，而fc6 fc8上的特征转移性显著下降，因此关键是要适应多层而不是单一层。换句话说，调整单个层不能消除源和目标之间的数据集偏差，因为还有其他层是不可转移的。多层自适应的另一个好处是，通过联合适应表示层和分类器层，我们可以从本质上消除边界分布和条件分布下的域差异，这对域自适应至关重要(Zhang et al.， 2013)。(2)multi-kernel适应。Gretton等(2012b)指出，核选择对于MMD的测试能力至关重要，因为不同的核可能会在不同的RKHSs中嵌入概率分布，在不同的RKHSs中可以强调不同的充分统计量顺序。这对于矩量匹配至关重要，而以往的域自适应方法并没有很好地研究这一问题。

3.2. Algorithm

Learning $\Theta$ 使用内核的技巧，MK-MMD(1)可以计算内核功能的期望 $d_{k}^{2}(p, q)=\mathbf{E}_{\mathbf{x}^{s} \mathbf{x}^{\prime s}} k\left(\mathbf{x}^{s}, \mathbf{x}^{\prime s}\right)+\mathbf{E}_{\mathbf{x}^{t} \mathbf{x}^{\prime}} k\left(\mathbf{x}^{t}, \mathbf{x}^{\prime t}\right)-2 \mathbf{E}_{\mathbf{x}^{s} \mathbf{x}^{t}} k\left(\mathbf{x}^{s}, \mathbf{x}^{t}\right)$ ，其中 $\mathbf{x}^{s}, \mathbf{x}^{\prime s} \stackrel{i i d}{\sim} p, \mathbf{x}^{t}, \mathbf{x}^{\prime t} \stackrel{i i d}{\sim} q, \text { and } k \in \mathcal{K}$ 。然而，这种计算带来了 $O\left(n^{2}\right)$ 的复杂度，这对于深度神经网络来说是不可取的，因为深度神经网络的能力很大程度上来自于对大规模数据集的学习。此外，对数据点之间成对相似性的求和使得小批量随机梯度下降(SGD)更加困难，而小批量SGD对深度网络的训练有效性至关重要。而之前基于MMD的工作(Pan et al.， 2011;曾等人(2014)很少涉及这个问题，我们认为这在深度学习的背景下是至关重要的。本文采用无偏估计的MK-MMD (Gretton et al.， 2012b)，其计算具有线性复杂度。更特别的是， $d_{k}^{2}(p, q)=\frac{2}{n_{s}} \sum_{i=1}^{n_{s} / 2} g_{k}\left(\mathbf{z}_{i}\right)$ ，其中我们表示的是quad-tuple $\mathbf{z}_{i} \triangleq\left(\mathbf{x}_{2 i-1}^{s}, \mathbf{x}_{2 i}^{s}, \mathbf{x}_{2 i-1}^{t}, \mathbf{x}_{2 i}^{t}\right)$ ，并对每个四元组求多核函数k： $g_{k}\left(\mathbf{z}_{i}\right) \triangleq k\left(\mathbf{x}_{2 i-1}^{s}, \mathbf{x}_{2 i}^{s}\right)+k\left(\mathbf{x}_{2 i-1}^{t}, \mathbf{x}_{2 i}^{t}\right)-k\left(\mathbf{x}_{2 i-1}^{s}, \mathbf{x}_{2 i}^{t}\right -k\left(\mathbf{x}_{2 i}^{s}, \mathbf{x}_{2 i-1}^{t}\right))$ 。这种方法计算自变量的期望，如(1)所示，代价为O(n)。

当我们用小批量SGD训练深度CNN时，我们只需要考虑objective(4)对每个数据点习的梯度。由于线性时间MK-MMD的求和形式很好，可以很容易地解耦为 $g_{k}\left(\mathbf{z}_{i}\right)$ 的和，所以我们只需要计算梯度 $\frac{\partial g_{k}\left(\mathbf{z}_{i}^{\ell}\right)}{\partial \Theta^{\ell}}$ ，对于quad-tuple $\mathbf{z}_{i}^{\ell}=\left(\mathbf{h}_{2 i-1}^{s \ell}, \mathbf{h}_{2 i}^{s \ell}, \mathbf{h}_{2 i-1}^{t \ell}, \mathbf{h}_{2 i}^{t \ell}\right)$ 的第l层隐藏层表征。.为了与MK-MMD的梯度一致，我们需要计算CNN risk的相应梯度 $\frac{\partial J\left(\mathbf{z}_{i}\right)}{\partial \Theta^{\ell}}$ ，其中 $J\left(\mathbf{z}_{i}\right)=\sum_{i^{\prime}} J\left(\theta\left(\mathbf{x}_{i^{\prime}}^{a}\right), y_{i^{\prime}}^{a}\right)$ ， $\left\{\left(\mathbf{x}_{i^{\prime}}^{a}, y_{i^{\prime}}^{a}\right)\right\}$ 表示四元组zi中的标记实例，例如，在目标域没有标记数据的无监督自适应中，我们有 $\left\{\left(\mathbf{x}_{i^{\prime}}^{a}, y_{i^{\prime}}^{a}\right)\right\}=\left\{\left(\mathbf{x}_{2 i-1}^{s}, y_{2 i-1}^{s}\right),\left(\mathbf{x}_{2 i}^{s}, y_{2 i}^{s}\right)\right\}$ 。执行mini-batch更新我们的梯度计算目标(4)对ℓth层参数 $\Theta^{\ell}$ ：

$\nabla_{\Theta^{\ell}}=\frac{\partial J\left(\mathbf{z}_{i}\right)}{\partial \Theta^{\ell}}+\lambda \frac{\partial g_{k}\left(\mathbf{z}_{i}^{\ell}\right)}{\partial \Theta^{\ell}}$

这种小型批SGD可以在CNNs的Caffe框架内轻松实现(Jia等，2014)。给定核k是m高斯核的线性组合 $\left\{k_{u}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=e^{-\left\|\mathbf{x}_{i}-\mathbf{x}_{j}\right\|^{2} / \gamma_{u}}\right\}$ ，梯度 $\frac{\partial g_{k}\left(\mathbf{z}_{i}^{\ell}\right)}{\partial \Theta^{\ell}}$ 很容易用链式法则计算出来。例如

$\begin{aligned} \frac{\partial k\left(\mathbf{h}_{2 i-1}^{s \ell}, \mathbf{h}_{2 i}^{t \ell}\right.}{\partial \mathbf{W}^{\ell}} &=-\sum_{u=1}^{m} \frac{2 \beta_{u}}{\gamma_{u}} k_{u}\left(\mathbf{h}_{2 i-1}^{s \ell}, \mathbf{h}_{2 i}^{\ell \ell}\right) \\ & \times\left(\mathbf{h}_{2 i-1}^{s \ell}-\mathbf{h}_{2 i}^{t \ell}\right) \\ & \times\left(\mathbb{I}\left[\mathbf{h}_{2 i-1}^{s(\ell-1)}\right]-\mathbb{I}\left[\mathbf{h}_{2 i}^{t(\ell-1)}\right]\right)^{\top} \end{aligned}$

在最后一行的梯度计算ℓth层r rectif单元，用I定义为 $\mathbb{I}\left[\mathbf{h}_{j i}^{\ell-1}\right]=\mathbf{h}_{j i}^{\ell-1} \text { if } \mathbf{W}_{j}^{\ell} \mathbf{h}_{i}^{\ell-1}+\mathbf{b}_{j}^{\ell} \geqslant 0, \text { else } \mathbb{I}\left[\mathbf{h}_{j i}^{\ell-1}\right]=0$

Learning $\beta$ 多层适应规范执行layerwise MK-MMD匹配，因此我们寻求最优学习内核参数 $\beta$ 的MK-MMD共同测试功率最大化和最小化II型误差 (Gretton et al., 2012b)，优化：

$\max _{k \in \mathcal{K}} d_{k}^{2}\left(\mathcal{D}_{s}^{\ell}, \mathcal{D}_{t}^{\ell}\right) \sigma_{k}^{-2}$

其中 $\sigma_{k}^{2}=\mathbf{E}_{\mathbf{z}} g_{k}^{2}(\mathbf{z})-\left[\mathbf{E}_{\mathbf{z}} g_{k}(\mathbf{z})\right]^{2}$ 为估计variance。让 $\mathbf{d}=\left(d_{1}, d_{2}, \ldots, d_{m}\right)^{\top}$ ，通过 $k_{u}$ ，每一个 $d_{u}$ 都是MMD。协方差 $\mathbf{Q}=\operatorname{cov}\left(g_{k}\right) \in \mathbb{R}^{m \times m}$ 可在 $O\left(m^{2} n\right)$ cost中计算，即 $\mathbf{Q}_{u u^{\prime}}=\frac{4}{n_{s}} \sum_{i=1}^{n_{s} / 4} g_{k_{u}}^{\Delta}\left(\overline{\mathbf{z}}_{i}\right) g_{k_{u^{\prime}}}^{\Delta}\left(\overline{\mathbf{z}}_{i}\right)$ ，其中 $\overline{\mathbf{Z}}_{i} \triangleq\left(\mathbf{Z}_{2 i-1}, \mathbf{Z}_{2 i}\right)$ 和 $g_{k_{u}}^{\Delta}\left(\overline{\mathbf{z}}_{i}\right) \triangleq g_{k_{u}}\left(\mathbf{z}_{2 i-1}\right)-g_{k_{u}}\left(\mathbf{z}_{2 i}\right)$ 。因此(7)约简为二次规划：

$\min _{\mathbf{d}^{\top} \boldsymbol{\beta}=1, \boldsymbol{\beta} \geqslant \mathbf{0}} \boldsymbol{\beta}^{\top}(\mathbf{Q}+\varepsilon \mathbf{I}) \boldsymbol{\beta}$

$\varepsilon=10^{-3}$ 是一个小正则化器，使问题明确。通过求解(8)得到一个多核 $k=\sum_{u=1}^{m} \beta_{u} k_{u}$ 共同测试最大化和最小化了II型误差。

我们注意到DAN目标(4)本质上是一个极小极大问题；即我们计算 $\min _{\Theta} \max _{\mathcal{K}} d_{k}^{2}\left(\mathcal{D}_{s}^{\ell}, \mathcal{D}_{t}^{\ell}\right) \sigma_{k}^{-2}$ 。CNN参数Θ学会通过最小化MK-MMD域差异,而MK-MMD参数β是学会通过最小化II型错误。这两个准则都致力于有效地适应域离散旨在巩固旦功能的可移植性。我们因此采取的交替优化,更新Θmini-batch SGD(5)和βQP(8)迭代。这两种更新都需要O(n)的开销，并且可扩展到更大的数据。

4. Experiments

在无监督和半监督适应问题上，我们将DAN模型与最先进的转移学习和深度学习方法进行了比较，重点研究了多核多层适应的有效性。

4.1. Setup

Office-31 1 (Saenko et al.， 2010)该数据集是领域适应的标准基准。它由来自三个不同领域的31个类别的4652幅图像组成:Amazon (A)，其中包含从Amazon下载的图像，Webcam (W)和DSLR (D)，分别是在不同环境变化的办公室中使用web camera和digital SLR camera拍摄的图像。我们通过深度学习方法中常用的三个转移任务A W、D W和W D来评估我们的方法(Donahue et al.， 2014;曾等，2014)。为了完整性，我们进一步包括了对其他三个转移任务的评估，A D, D A和W A. Office-10 + Caltech-10 (Gong et al.， 2012)。该数据集由Office31和Caltech-256 (C) (Griffin et al.， 2007)数据集共享的10个常见类别组成，在迁移学习方法中被广泛采用(Long et al.， 2013;Baktashmotlagh等，2013)。我们可以构建另外6个传输任务:A C、W C、D C、C A、C W和C D。埃,2011)。

我们比较了多种方法:TCA (Pan et al.， 2011)、GFK (Gong et al.， 2012)、CNN (Krizhevsky et al.， 2012)、LapCNN (Weston et al.， 2008)和DDC (Tzeng et al.， 2014)。具体来说，TCA是一种基于mmd正则PCA的传统转移学习方法。GFK是我们的数据集广泛采用的一种方法，它在中间子空间内插以连接源和目标。CNN在ImageNet 2012竞赛中是领先的方法，它被证明是学习可转移特征的强大模型(Yosinski et al.， 2014)。LapCNN是基于拉普拉斯图正则化的CNN的半监督变体。最后，DDC是CNN的一个域自适应变体，它在fc7和fc8层之间增加了一个自适应层，该自适应层由单核MMD正则化。我们实现了基于cnn的方法，即基于Caffe (Jia et al.， 2014)实现AlexNet (Krizhevsky et al.， 2012)训练的ImageNet数据集。为了研究多层自适应和多核MMD的有效性，我们对DAN的几个变体进行了评估:(1)DAN只使用一个隐含层，即f c7或f c8进行自适应，分别称为DAN7和DAN8;(2) DAN使用单内核MMD进行适配，称为DANSK。

我们主要遵循无监督适应的标准评估协议，使用所有带标签的源例子和所有没有标签的目标例子(Gong et al.， 2013)。为了使我们的结果直接与大多数已发表的结果相比较，我们报告了一个经典的协议(Saenko et al.， 2010)，在该协议中，我们随机抽取源示例，并进一步要求每个类别中有3个标记的目标示例用于半监督适应。我们比较了每个任务分类精度的平均值和标准误差。对于基线方法，我们遵循各自论文中解释的模型选择标准流程。对于基于mmd的方法(即、柠檬酸、监护和丹),我们使用高斯核k (xi, xj) = e kxi xj k与带宽2 /γγ将中间两两距离在训练数据中值启发式(车载et al ., 2012 b)。我们使用丹multi-kernel多党民主运动,并考虑一个家庭的m高斯内核{ku} m u = 1 2 8γ2之间不同带宽γu 8γ乘法步长为2 1/2(车载et al ., 2012 b)。作为多党民主运动相当于最大化最小化分类误差源的目标(两个示例分类器)(Sriperumbudur et al ., 2009),我们可以自动选择多惩罚参数λ在一组验证(由source-labeled实例和target-unlabeled实例)的共同评估测试错误源分类器和两个示例分类器。我们使用整合架构(Yosinski et al ., 2014),然而,由于有限的训练例子在我们的数据集,我们解决卷积层conv1 conv3从pretrained复制的模式,调整conv4 conv5 c6 f c7和完全连接层,和训练分类器层f c8,通过反向传播两种。由于分类器是从零开始训练的，我们将其学习率设置为较低层次的10倍。我们使用0.9动量的随机梯度下降(SGD)和在Caffe中实现的学习速率退火策略，并使用乘法步长101/2在10 5到10 2之间交叉验证基学习速率。

4.2. Results and Discussion

前6个Office31迁移任务的无监督适应结果如表1所示，其余6个Office-10 + Caltech-10迁移任务的无监督适应结果如表2所示。为了与DDC直接比较，我们在表3中报告了DDC使用的相同任务的半监督自适应结果。

我们可以观察到，DAN在大多数转移任务上显著优于比较方法，并且在源和目标相似的简单转移任务D W和W D上取得了相似的性能(Saenko et al.， 2010)。这是合理的，因为不同的转换任务的适应性可能不同。性能的提高表明，我们的多层自适应体系结构通过多内核MMD能够跨不同领域传输预先训练好的深度模型。

从实验结果中，我们可以得出以下观察结果。(1)基于深度学习的学习方法显著优于传统的浅迁移学习方法。(2)在深度学习方法中，半监督的LapCNN并没有比CNN有什么改进，这说明领域差异的挑战是不容易通过半监督来桥接的监督学习。(3) DDC是CNN的跨域变体，通过单核MMD实现单层自适应，总体性能优于CNN，证实了其利用领域自适应深度模型学习可转移特征的有效性。注意，虽然基于Caffe AlexNet的DDC被证明明显优于不进行微调的脱咖啡因咖啡(Donahue et al.， 2014)，但是使用微调的DDC并没有比使用Caffe AlexNet获得更大的收益。这说明了通过单内核MMD进行单层自适应的局限性，不能充分挖掘深度网络和多内核在域自适应方面的优势。

为了更深入地研究DAN，我们给出了DAN的三种变体的结果:(1)DAN7和DAN8的精度优于DDC，这表明多核MMD比单核MMD更有效地消除了域差异。原因是不同带宽的多个内核可以同时匹配低阶矩和高阶矩，从而最小化II型误差(Gretton et al.， 2012b)。(2)与DDC相比，DANSK具有更高的精度，证实了深度架构对分布适应的能力。其基本原理与深度网络相似:深度网络的每一层都旨在在不同的抽象级别提取特性，因此我们需要匹配每个特定于任务层的分布，以在所有级别巩固适应质量。多层体系结构是提高深度学习效率的最关键因素之一，我们认为它对基于mmd的适应也很重要。多层变体DANSK和多内核变体DAN7和DAN8之间的性能比较表明，它们对于域适应具有同等的重要性。正如所料，DAN通过与多内核MMD共同探索多层适配，获得了最佳性能。DAN的另一个好处是，它使用了内核嵌入的线性时间无偏估计，这使得它比现有的TCA和DDC方法效率更高。尽管曾等人(2014)通过计算SGD中每个小批内的MMD来加快DDC，但这导致了MMD的偏估计和较低的自适应精度。

4.3. Empirical Analysis

Feature Visualization 为了证明DAN学习特征的可移植性，我们遵循Donahue et al.(2014)和Tzeng et al.(2014)以及图2(a) 2(b)和图2(c) 2(d)中图像的t-SNE嵌入在task C W中，分别使用DDC特性和DAN特性。我们的观察结果如下:(1)DDC特征对目标点的识别效果不是很好，而DAN特征对目标点的识别效果要好得多。(2)使用DDC特性时，源和目标之间的类别对齐不是很好，而使用DAN特性时，域之间的类别对齐要好得多。这两个观察结果都可以解释DAN优于DDC的性能:(1)表示目标点更容易被DAN特征识别，(2)表示目标点更容易被源分类器识别。DAN可以学习更多可转移的特性来有效地适应领域。

A-Distance Ben-David等人(2010)的一个理论结果表明，A-距离是区域差异的度量。作为近似计算准确的距离是棘手的,距离被定义为dA = 2(1 2ǫ)ǫ在哪两个示例分类器的泛化误差(内核支持向量机在我们的例子中)对准二进制源和目标之间区分输入样本问题域。图3(a)分别使用原始特性、CNN特性和DAN特性显示了传输任务a W和C W上的dA。它揭示了一个令人惊讶的现象，CNN和DAN feature上的dA都大于Raw feature上的dA。这意味着抽象的深层特征在区分不同类别和不同领域时都是显著的，这与Glorot et al.(2011)一致。然而，域适应可能会因为域差异的扩大而恶化(Ben-David et al.， 2010)。希望DAN feature的dA小于CNN feature，这样可以保证更多的可转移特性。

Parameter Sensitivity 我们调查的影响参数λ。图3 (b)给出了一个说明的变化转移分类性能λ{0.1,0.4,0.7,1.4,1.7,2}在任务W和C W .我们可以观察到丹精度先增加然后减少λ的变化和演示了一个钟形曲线。这证实了共同学习深层特征和适应分布差异的动机，因为它们之间的良好权衡可以增强特征的可移植性。

5. Conclusion

本文提出了一种新的深度自适应网络(DAN)结构，提高了神经网络任务层特征的可移植性。我们证实，虽然一般特征可以很好地推广到一个新的任务，但针对原始任务的特定特征不能有效地桥接领域差异。结果表明，在一个可重生成的核希尔伯特空间中，多层表示法的平均嵌入匹配可以显著提高特征的可移植性。最优多核选择策略进一步提高了嵌入匹配的有效性，而对平均嵌入量的无偏估计自然会导致线性时间算法，对于大规模数据集的深度学习是非常理想的。对标准域适应基准进行了广泛的经验评估，证明了该模型相对于以往方法的有效性。

随着深度特征在网络中由一般向特定过渡，研究确定共性和特异性边界的原则方法，以及将分布自适应应用到CNN的卷积层中，进一步增强特征的可移植性，是一件很有趣的事情。

Learning Transferable Features with Deep Adaptation Networks