[论文翻译] Open Set Domain Adaptation

省略了论文的图表以及实验部分
https://openaccess.thecvf.com/content_iccv_2017/html/Busto_Open_Set_Domain_ICCV_2017_paper.html

Open Set Domain Adaptation

Abstract

当训练数据和测试数据属于不同的领域时,对象分类器的准确性会大大降低。因此,在过去的几年里,人们提出了几种算法来减少数据集之间所谓的领域转移。然而,所有可用的领域适应性评估协议都描述了一个封闭集识别任务,其中两个领域,即源域和目标域,都包含完全相同的对象类别。在这项工作中,我们也探索了开放集的领域自适应,这是一个更现实的场景,在源数据和目标数据之间只有少数感兴趣的类别是共享的。因此,我们提出了一种既适合封闭集又适合开集的方法。该方法通过共同解决一个赋值问题来学习从源域到目标域的映射,该赋值问题为那些可能属于源数据集中感兴趣类别的目标实例贴上标签。一项全面的评估表明,我们的方法优于最先进的方法。

I. Introduction

对于许多应用来说,由于获取有标注的训练数据的成本很高,所以训练数据很稀缺。虽然有大量的带标注的图像数据集可以公开获得,但从互联网上收集的图像往往与特定应用相关的图像类型不同。根据应用、传感器的类型或传感器的视角,整个捕获的场景可能与互联网上的图片大不相同。因此,这两种类型的图像处于两个不同的领域,即源域和目标域。为了利用源域的有标注图像对目标域的图像进行分类,可以将源域和目标域对齐。在我们的案例中,我们将把源域的特征空间映射到目标域的特征空间。然后,任何分类器都可以在转换后的源域数据上学习,以对目标域的图像进行分类。这个过程被称为域自适应,并根据目标图像是未标记还是部分标记,进一步分为无监督和半监督的方法。

除了我们在过去几年看到的领域自适应的进展,到目前为止,这些方法都是在源域和目标域的图像来自同一类别集的情况下进行评估。如图1(a)所示,这种设置可以被称为闭集(close set)领域适应。这种封闭集协议的一个例子是流行的Office数据集。然而,假设目标域只包含源域类别的图像是不现实的。对于大多数应用来说,目标域的数据集包含许多图像,其中只有一小部分可能属于感兴趣的类别。因此,我们将开集的概念引入领域自适应问题,并提出开集领域适应,它避免了封闭集领域自适应的不现实的假设。图1说明了封闭集领域自适应和开放集领域自适应之间的区别。

作为第二个贡献,我们提出了一种既适合封闭集又适合开放集的领域适应方法。为此,我们将源域的特征空间映射到目标域。该映射是通过将目标域的图像分配给源域的一些类别来估计的。赋值问题由一个二元线性程序定义,该程序还包括一个隐含的离群点处理,即丢弃与源域中任何图像无关的图像。图2中给出了该方法的概述。该方法可以应用于无监督或半监督的情况下,目标域中的一些图像由一个已知的类别来标注。

我们在24个源域和目标域的组合上提供了全面的评估,并与最先进的方法进行了比较,包括Office数据集和跨数据集分析。我们重新审视了这些评估数据集,并提出了一个新的开放集协议,用于无监督和半监督的领域适应,我们的方法在所有设置中都取得了最先进的结果。

II. Related Work

随着Saenko等人发布了物体分类中领域自适应的基准,人们对研究计算机视觉问题的领域自适应技术的兴趣增加。Golapan等人和Gong等人提出了第一个用于物体分类的无监督领域自适应的相关工作,他们利用格拉斯曼流形的特性提出了源和目标样本的共同子空间中的对齐。将源域和目标域联合转化为一个共同的低维空间,也是通过对具有正交性约束的转化矩阵进行共轭梯度最小化,并通过字典学习来寻找子空间插值。Sun等人提出了一个基于二阶统计学的非常有效的解决方案,将源域与目标域对齐。同样,Csurka等人联合对源和目标样本进行去噪,以重建没有部分随机损坏的数据。Gong等人与领域之间的关联有某些相似之处,他们将两个数据集的最大平均差异(MMD)最小化。他们将实例分配给潜在的域,并通过一个宽松的二元优化来解决。Hsu等人使用了一个类似的想法,允许实例与所有其他样本相连。

半监督领域自适应方法利用了对少数目标样本的类别标签的了解。Aytar等人提出了一个迁移学习公式,以规范目标分类器的训练。利用跨领域的配对约束,Saenko等人和Kulis等人学习一种转换,以最小化领域转换的影响,同时也训练目标分类器。按照同样的想法,Hoffman等人考虑了一个迭代过程,以交替地最小化分类权重和转换矩阵。在不同的背景下,[7]提出了一种弱监督的方法,通过合成图像来完善真实图像的粗略观点标注。与半监督方法相比,观点细化的任务假定目标域中的所有图像都被标记了,但不是以期望的粒度标记的。

在自然语言处理的背景下,选择每个领域最相关的信息的想法已经在早期的领域适应方法中得到研究。在两个领域的判别性学习中,选择行为相同的支点特征来模拟它们的关联性。Gong等人提出了一种算法,选择与目标领域分布最相似的源样本子集。另一种涉及实例选择的技术是由Sangineto等人提出的。他们在目标域的随机分区上训练弱分类器,并在源域中评估它们。然后选择表现最好的分类器。其他工作也利用了贪婪的算法,在训练过程中反复增加目标样本,同时删除最不相关的源样本。

由于CNN特征对领域变化表现出一定的鲁棒性,所以已经提出了几种基于CNN的领域自适应方法。Chopra等人通过学习中间特征编码器扩展了CNN与源图像的联合训练,并结合它们来训练一个深度回归器。MMD距离也被提议作为正则器,用于联合学习源和目标样本的特征。Ganin等人在CNN之后增加了一个领域分类器网络,以使领域损失和分类损失一起最小化。最近,Ghifary等人将两个CNN模型结合起来,用于标记的源数据分类和无监督的目标数据重建。

标准的对象分类任务忽略了没有被任何对象类别代表的冒牌货的影响。这些开放集在人脸识别任务中开始受到关注,其中一些测试样本没有出现在训练数据库中,必须被拒绝。Scheirer等人最近重新审视了当前在多类识别中用开放集检测不相关样本的技术。[23]和[36]通过学习分配概率决策分数而不是类别标签的SVM来检测未知的实例。同样,[49]和[4]增加了一个正则器来检测异常值并对错误分类进行惩罚。

III. Open Set Domain Adaptation

我们在本文中提出了一种方法,它在解决目标样本的标记问题,即把目标样本的一个子集与源域的已知类别联系起来,并通过最小化赋值的距离来计算从源域到目标域的映射。然后,在下一次迭代中使用转换后的源样本,重新估计赋值并更新转换。这个迭代过程一直重复到收敛,如图2所示。

在第3.A节中,我们描述了将目标样本无监督地分配给源域的类别。第3.B节描述了半监督的情况。第3.C节最后描述了如何从之前的分配中估计出源域到目标域的映射。这一部分对于无监督和半监督的设置是相同的。

A.Unsupervised Domain Adaptation

我们首先在一个开放集协议中解决无监督的领域自适应问题,即没有一个目标样本被标注。给定源域中的一组类 C \mathcal{C} C,包括 ∣ C − 1 ∣ |\mathcal{C}-1| C1已知类和一个额外的未知类,该类收集了其他不相关类别的所有实例,我们的目的是用一个类 c ∈ C c∈\mathcal{C} cC来标记目标样本 T = { T 1 , … , T ∣ T ∣ } \mathcal{T}=\left\{T_{1}, \ldots, T_{|\mathcal{T}|}\right\} T={ T1,,TT}。我们通过 d c t = ∥ S c − T t ∥ 2 2 d_{c t}=\left\|S_{c}-T_{t}\right\|_{2}^{2} dct=ScTt22来定义将目标样本 T t T_t Tt分配给类 c c c的成本,其中 T t ∈ R D T_{t} \in \mathbb{R}^{D} TtRD是目标样本 t t t的特征表示, S c ∈ R D S_{c} \in \mathbb{R}^{D} ScRD是源域中被类 c c c标记的所有样本的平均值。为了提高分配的稳健性,我们不强制要求所有目标样本被分配到一个类,如图2(b)所示。宣布一个目标样本为离群点的成本由一个参数 λ \lambda λ定义,这个参数将在第4.1节讨论。

在定义了单独的分配成本后,我们可以通过以下方式制定整个分配问题: minimise ⁡ x c t , o t ∑ t ( ∑ c d c t x c t + λ o t )  subject to  ∑ c x c t + o t = 1 ∀ t ∑ t x c t ≥ 1 ∀ c , x c t , o t ∈ { 0 , 1 } ∀ c , t . \begin{array}{clr} \underset{x_{c t}, o_{t}}{\operatorname{minimise}} & \sum_{t}\left(\sum_{c} d_{c t} x_{c t}+\lambda o_{t}\right) & \\ \text { subject to } & \sum_{c} x_{c t}+o_{t}=1 & \forall t \\ & \sum_{t} x_{c t} \geq 1 & \forall c, \\ & x_{c t}, o_{t} \in\{0,1\} & \forall c, t . \end{array} xct,otminimise subject to t(cdctxct+λot)cxct+ot=1txct1xct,ot{ 0,1}tc,c,t. 通过最小化约束的目标函数,我们得到二元变量 x c t x_{ct} xct o t o_t ot作为分配问题的解决方案。第一类约束条件确保目标样本要么被分配到一个类别,即 x c t = 1 x_ct=1 xct=1,要么被宣布为离群,即 o t = 1 o_t=1 ot=1。第二类约束条件确保至少有一个目标样本被分配到每个类别 c ∈ C c∈\mathcal{C} cC。我们使用约束整数程序包SCIP来解决所有提出的公式。

如图2(b)所示,我们也用未知类来标记目标。请注意,未知类结合了所有不感兴趣的对象。即使源域和目标域中的未知物属于不同的语义类别,一个目标样本也可能比任何其他的正类更接近所有否定物的平均值。在这种情况下,我们可以保密地将目标样本标记为未知。在我们的实验中,我们表明,如果未知类被包括在无监督的设置中,并没有太大的区别,因为离群点处理会丢弃不接近否定类平均值的目标样本。

B. Semi-Supervised Domain Adaptation

当少数目标样本被标注时,无监督分配问题自然延伸到半监督设置。在这种情况下,我们只需要通过额外的约束条件来扩展公式(1),强制要求被标注的目标样本不改变标签,即: x c ^ t t = 1 x_{\hat{c}_{t} t}=1 xc^tt=1 ∀ ( t , c ^ t ) ∈ L \forall\left(t, \hat{c}_{t}\right) \in \mathcal{L} (t,c^t)L 其中,L表示标记的目标样本集, c ^ t \hat{c}_{t} c^t是为目标样本 t t t提供的类标签。为了更好地利用标记的目标样本,可以使用源域和目标域的邻域结构。在约束条件不变的情况下,目标函数(1)可以改变为: ∑ t ( ∑ c x c t ( d c t + ∑ t ′ ∈ N t ∑ c ′ d c c ′ x c ′ t ′ ) + λ o t ) \sum_{t}\left(\sum_{c} x_{c t}\left(d_{c t}+\sum_{t^{\prime} \in N_{t}} \sum_{c^{\prime}} d_{c c^{\prime}} x_{c^{\prime} t^{\prime}}\right)+\lambda o_{t}\right) t(cxct(dct+tNtcdccxct)+λot) 其中 d c c ′ = ∥ S c − S c ′ ∥ 2 2 d_{c c^{\prime}}=\left\|S_{c}-S_{c^{\prime}}\right\|_{2}^{2} dcc=ScSc22。虽然在(1)中,用 c c c类标记目标样本 t t t的成本仅由 d c t d_{ct} dct给出,但在(3)中增加了第二个项。它是在 t t t的所有邻居 N t N_t Nt上计算的,如果一个邻居被分配到目标样本 t t t以外的另一个类别,它将增加源域中类别之间的距离作为额外的成本。

然而,目标函数(3)变成了二次函数,因此是NP难的。因此,我们使用Kaufman和Broeckx的线性化方法将二次分配问题转化为混合0-1线性规划。通过替代 w c t = x c t ( ∑ t ′ ∈ N t ∑ c ′ x c ′ t ′ d c c ′ ) w_{c t}=x_{c t}\left(\sum_{t^{\prime} \in N_{t}} \sum_{c^{\prime}} x_{c^{\prime} t^{\prime}} d_{c c^{\prime}}\right) wct=xct(tNtcxctdcc) 我们推导出线性化问题: minimise ⁡ x c t , w c t , o t ∑ t ( ∑ c d c t x c t + ∑ c w c t + λ o t )  subject to  ∑ c x c t + o t = 1 ∀ t ∑ t x c t ≥ 1 ∀ c a c t x c t + ∑ t ′ ∈ N t ∑ c ′ d c c ′ x c ′ t ′ − w c t ≤ a c t ∀ s , t x c t , o t ∈ { 0 , 1 } ∀ c , t w c t ≥ 0 ∀ c , t \begin{array}{lll} \operatorname{minimise}_{x_{c t}, w_{c t}, o_{t}} & \sum_{t}\left(\sum_{c} d_{c t} x_{c t}+\sum_{c} w_{c t}+\lambda o_{t}\right) & \\ \text { subject to } & \sum_{c} x_{c t}+o_{t}=1 & \forall t \\ & \sum_{t} x_{c t} \geq 1 & \forall c \\ & a_{c t} x_{c t}+\sum_{t^{\prime} \in N_{t}} \sum_{c^{\prime}} d_{c c^{\prime}} x_{c^{\prime} t^{\prime}}-w_{c t} \leq a_{c t} & \forall s, t \\ & x_{c t}, o_{t} \in\{0,1\} & \forall c, t \\ & w_{c t} \geq 0 & \forall c, t \end{array} minimisexct,wct,ot subject to t(cdctxct+cwct+λot)cxct+ot=1txct1actxct+tNtcdccxctwctactxct,ot{ 0,1}wct0tcs,tc,tc,t 其中 a c t = ∑ t ′ ∈ N t ∑ c ′ d c c ′ a_{c t}=\sum_{t^{\prime} \in N_{t}} \sum_{c^{\prime}} d_{c c^{\prime}} act=tNtcdcc

C. Mapping

如图2所示,我们在解决分配问题(如第3.A或3.B节所述)和估计从源域到目标域的映射之间反复进行。我们考虑一个线性转换,它由矩阵 W ∈ R D × D W \in \mathbb{R}^{D \times D} WRD×D表示。我们通过最小化以下损失函数来估计 W W W f ( W ) = 1 2 ∑ t ∑ c x c t ∥ W S c − T t ∥ 2 2 f(W)=\frac{1}{2} \sum_{t} \sum_{c} x_{c t}\left\|W S_{c}-T_{t}\right\|_{2}^{2} f(W)=21tcxctWScTt22 我们可以用矩阵形式重写: f ( W ) = 1 2 ∥ W P S − P T ∥ F 2 f(W)=\frac{1}{2}\left\|W P_{S}-P_{T}\right\|_{F}^{2} f(W)=21WPSPTF2 矩阵 P S P_S PS P T ∈ R D × L P_{T} \in \mathbb{R}^{D \times L} PTRD×L L = ∑ t ∑ c x c t L=\sum_{t} \sum_{c} x_{c t} L=tcxct代表所有的分配,其中列表示实际的关联。凸目标函数的二次方性质可以被看作是一个线性最小二乘法问题,它可以被任何可用的QP求解器轻松解决。然而,基于卷积神经网络的最先进的特征是高维的,目标实例的数量通常非常大。因此我们使用非线性优化来优化 f ( W ) f(W) f(W)。(6)的导数由以下公式给出: ∂ f ( W ) ∂ W = W ( P S P S T ) − P T P S T \frac{\partial f(W)}{\partial W}=W\left(P_{S} P_{S}^{T}\right)-P_{T} P_{S}^{T} Wf(W)=W(PSPST)PTPST 如果 L < D L<D L<D,即被分配到一个已知类别的样本数量小于特征的维度,那么优化也会处理一个欠确定的线性最小二乘法公式。在这种情况下,求解器会收敛到具有最小规范的矩阵 W W W,这仍然是一个有效的解决方案。

在变换 W W W被估计出来后,我们将源样本映射到目标域。因此,我们迭代解决赋值问题和估计从源域到目标域的映射的过程,直到它收敛。在该方法收敛后,我们以一对一的方式对转换后的源样本进行线性SVM的训练。对于半监督设置,我们还将标注过的目标样本 L \mathcal{L} L纳入训练集。然后,线性SVM被用来获得目标样本的最终标签,如图2(d)所示。

V. Conclusions

在本文中,我们引入了开集领域自适应的概念。与封闭集领域自适应相比,源域和目标域只共享对象类的一个子集,而目标域的大多数样本属于源域中不存在的类。我们为现有的数据集提出了新的开放集协议,并评估了CNN方法以及标准的无监督领域自适应方法。此外,我们还提出了一种无监督开集领域自适应的方法。该方法也可以应用于封闭集领域自适应和半监督领域自适应。在所有环境中,我们的方法都取得了最先进的结果。

猜你喜欢

转载自blog.csdn.net/qq_40714949/article/details/123941512