Domain Adaptation for Object Recognition: An Unsupervised Approach

本篇是迁移学习专栏介绍的第十五篇论文,由马里兰大学帕克分校完成发表在ICCV2011上,引用量超600+的论文,算是domain adaptation发表较早的论文。


Abstract

将训练在源域上的分类器用于识别来自新目标域的实例是最近受到关注的一个重要问题。在本文中,我们提出了在对象识别上下文中关于无监督域适应的首批研究之一,其中我们只标记了来自源域的数据(因此没有跨域的对象类别之间的对应关系)。出于增量学习,我们创建中介表示两个域之间的数据通过查看生成子空间维度(相同的)从这些领域创建点Grassmann歧管,沿着测地线和采样点之间获取子空间,提供一个有意义的描述底层域的转变。然后我们得到标记源域数据在这些子空间上的投影,从中学习一个判别分类器对目标域上的投影数据进行分类。我们讨论了我们的方法的扩展,用于半监督自适应,以及用于多个源和目标域的情况,并在标准数据集上报告竞争结果。

1. Introduction

在模式分类问题中,我们经常会遇到这样的情况,即我们需要训练分类器的数据与测试时呈现的数据不同。在解决这一问题的几个学派中,有两个突出的学派是转移学习(TL)[32]和领域适应(DA)[4]。这两种策略主要不同之处在于,假设在培训和测试条件之间,数据的哪些特征正在发生变化。具体地说,TL解决了训练集X(源域)和测试集\tilde{X}(目标域)中数据的边缘分布相似的问题,而标签P(Y | X) \text { and } P(\tilde{Y} | \tilde{X})的条件分布是不同的,其中Y\tilde{Y}分别表示两个域中的标签。另一方面,DA属于P(Y | X) \approx P(\tilde{Y} | \tilde{X}),但P(X)P(\tilde{X})有显著差异的情况。这种特定的场景很自然地发生在无约束对象识别设置中,其中域的移动可能是由于姿势、光照、模糊和分辨率等方面的变化造成的。

在过去的几年里,理解领域变化的影响受到了自然语言处理社区的极大关注(例如[4,8,16])。虽然许多基本问题仍然停留在用于量化领域转移的假设上,但是有几种方法已经证明在某些领域变化下性能有所改善。给定源域的标记样例,根据目标域数据是否具有某些标记或完全未标记,这些方法可以大致分为两组。前者称为半监督DA,后者称为无监督DA。虽然semi-supervised DA通常是由利用通信信息获得标记学习目标域数据域转移转换(例如[16]),无监督DA是基于以下策略:(i)实施某些假设的类之间的转换域[39],或(ii)假设某些歧视的可用性特性,是常见的两个域(8,29)。

在目标识别的背景下,在一些预先指定的转换下,对源数据和目标数据的匹配问题进行了广泛的研究。例如,给定对象的适当表示,如轮廓或外观信息,如果希望执行对相似性转换不变的识别,可以使用傅里叶描述符[43]、基于动量的描述符[25]或SIFT特征[27]。然而,在一个更广泛的环境中,我们不知道转换的确切类,处理域更改的问题并没有得到显著的关注。最近的一些研究集中在半监督DA[33, 7, 26]。然而,随着来自不同设备(如数码单反相机或网络摄像头)的图像/视频数据的不断增加,以及来自互联网的图像收集,这样做并不总是合理的,假设标签在所有域中都可用。具体示例场景包括,一个机器人培训对象在室内设置在户外无约束条件下的目标识别他们,或者当用户几乎没有带安全标签的数据和大量的未标记数据对应于同一对象类别,其中一个想要概括所有可用的数据,而无需手动标签。尽管如此,无监督DA本质上是一个困难的问题,因为我们可能不知道域更改如何影响对象类别。

Contributions: 我们提出了一种主要由增量学习驱动的数据驱动的非监督方法,而不是假设跨领域的转换或特性的一些信息。由于人类在极端域之间的适应能力(更好),如果他们“逐渐”走在域之间的路径上(例如[34,12]),我们建议:

  • 将由X和得到的具有相同维数的生成子空间表示为格拉斯曼流形上的点,并沿着二者之间的测地线采样点,得到与这些子空间所张成空间的底层几何相一致的中间子空间表示;
  • 然后利用这些子空间在标记X上传递的信息,学习一个判别分类器来预测\tilde{X}的标记。此外,我们还说明了我们的方法处理多个源和目标域的能力,以及在目标中容纳标记数据(如果有的话)的能力。

Organization of the paper: 第二节回顾相关工作。第3节讨论了提出的方法。第4节给出了目标识别和自然语言处理的实验细节,并与DA方法进行了比较。图1说明了我们的方法背后的动机。


2. Related Work

Daume III和Marcu[16]完成了关于半监督域适应的最早工作之一,他们对源域和目标域对应的数据分布建模,使其由一个公共(共享)组件和一个特定于单个域的组件组成。然后是结合使用来自两个域[36]的标签的联合训练和域适应的方法,以及EM算法[14]、标签传播[42]和SVM[18]的半监督变体。最近,提出了一种基于增强特征空间的协同正则化方法,可以对源域和目标域[15]进行联合建模,并将将这两个域投射到重新生成的核希尔伯特空间上的组件分析转换为保留特定于域的数据分布[31]的一些特性。在表征领域转移的一定假设下,也有关于跨新领域分类误差性质的理论研究[6,4]。与此类似,也有人致力于2D对象识别应用程序的领域转移问题。例如,Saenko等人提出了一种度量学习方法,该方法可以使用目标域中少数类别的标记数据来预测未标记目标类别的域变化。Bergamo和Torresani[7]对支持向量机的几种变体进行了实证分析。Lai和Fox[26]通过将少量的带标记训练数据归纳到互联网上获得的弱标记数据池中,对三维点云进行目标识别。

另一方面,无监督DA是一个更困难的问题,因为我们没有在域之间的任何标记对应关系来估计它们之间的转换。Blitzer等人[10,9]提出了一种结构对应学习方法,该方法选择了两个领域中经常出现的一些主特征,不同于针对该问题的许多贪婪(和集群型)解决方案[35,23,11]。Ben-David等人对[10]的结果进行了推广,在一定的域转移假设下,对特征表示函数进行了理论分析,这些特征表示函数应该用来最小化域散度和分类误差。关于这方面的工作有更多的见解[8,29]。Wang和Mahadevan[39]的另一个相关方法在无监督流形对齐方面提出了这个问题,其中源和目标域所在的流形通过保留数据点的邻域结构的概念进行对齐。所有这些方法都主要关注自然语言处理。然而在视觉对象识别方面,我们还相对较少共识的基本表示使用X\tilde{X},目前尚不清楚如何合理的进行后续的假设从X\tilde{X}相关性的特征提取以及对它们进行的变换。


3. Proposed Method

3.1. Motivation

与现有的方法,与源和目标传达的信息域,我们从增量学习方法解决领域的转变是启发(说明的好处后逐渐适应极端之间之间的路径),我们试图识别潜在的源和目标之间的中间领域和了解他们所传达的信息域的变化。寻找这些新领域我们假设我们有一个从X\tilde{X},n维表示的数据,这取决于用户/应用程序,而不是依靠主特征的存在跨域[10],以及(2)我们学习这两个域之间的路径通过利用基本的几何空间,没有做出任何假设域转移转换(如[39])。下面给出了一个正式的问题说明。

3.2. Problem Description

X=\left\{x_{i}\right\}_{i=1}^{N_{1}} \in \mathbb{R}^{N}表示来自M个类别或类的源域的数据。令y_{i}\in \{1,2,3, \ldots M\}表示\boldsymbol{Z}_{\boldsymbol{2}}的标签。我们假设源域大部分被标记,即X=X_{l} \cup X_{u},其中X_{l}=\left\{x_{l i}\right\}_{i=1}^{N_{l 1}}有标签,例如\left\{y_{l i}\right\}_{i=1}^{N_{i 1}}, X_{u}=\left\{x_{u i}\right\}_{i=1}^{N_{u 1}}没有标记\left(N_{l 1}+N_{u 1}=N_{1}\right)。我们进一步假设所有类别都有一些带标签的数据。设\tilde{X}=\left\{\tilde{x}_{i}\right\}_{i=1}^{N_{2}} \in \mathbb{R}^{N}表示来自目标域的未标记数据,对应于相同的M个类别。由于子空间模型在建模数据特征(如[38])中非常普遍,我们使用与源域和目标域对应的生成子空间1。让S1和S2表示生成子空间dimension2 N x d通过执行主成分分析(PCA)[38]分别在X\tilde{X}, d < N .现在我们解决两个问题

(i)如何获得N x d中间子空间S_{t}t \in \mathbb{R}, 1<t<2

(2)如何利用这些子空间带安全标签的数据时所传递的信息X_{l}估计的标记\tilde{X}

3.3. Generating Intermediate Subspaces

为了获得S1和S2之间有意义的中间子空间,我们需要一组与这些N x d子空间所张成的空间的几何形状相一致的工具。\mathbb{R}^{N}(含原点)中的d维子空间可以用格拉斯曼流形\mathbb{G}_{N, d}来表示。S1和S2是\mathbb{G}_{N, d}上的点。理解格拉斯曼流形的几何性质一直是[41,19,1]等著作的重点,这些已经被用于一些具有子空间约束的视觉问题中,如[37,21,28,22]。关于这个流形的统计分析方法的汇编可以在[13]中找到。由于对这些方法的全面解释超出了本文的范围,所以我们建议有兴趣的读者参考上面提到的文章。

现在,我们使用一些与测地线路径有关的结果来获得中间子空间,测地线路径是流形上的匀速曲线。通过查看GN, d的商空间(N),测地线路径在\mathbb{G}_{N, d}从S1是一个单参数指数流[20]:\Psi\left(t^{\prime}\right)=Q \exp \left(t^{\prime} B\right) J。经验是指矩阵指数,和Q \in S O(N), Q^{T} S_{1}=J \text { and } J=\left[ \begin{array}{c}{I_{d}} \\ {0_{N-d, d}}\end{array}\right]。Id是一个d x d单位矩阵,B是一个斜对称的块对角矩阵,形式为B=\left( \begin{array}{cc}{0} & {A^{T}} \\ {-A} & {0}\end{array}\right), A \in \mathbb{R}^{(N-d) \times d},其中上标T表示矩阵转置,子矩阵a表示测地线流的方向和速度。为了得到S1和S2之间的测地线流,我们计算了方向矩阵A,使得从S1开始沿该方向的测地线在单位时间内到达S2。通常是计算使用逆指数映射算法(1)。一旦我们有,我们可以使用表达式Ψ(t 0)获得中间子空间之间的S1和S2通过改变t 0和1之间的值。这通常使用指数映射(算法2)来执行。让s0表示子空间的集合S_{t}, t \in \mathbb{R}, 1 \leq t \leq 2,包括S1 S2和所有中间子空间。设N0表示这些子空间的总数。

3.4. Performing Recognition Under Domain Shift

现在,我们对S^{\prime}X\tilde{X}上传递的信息进行建模,以便跨域变化执行识别。这个阶段我们基本上方法预测X\tilde{X}S^{\prime},并寻找它们之间的相关性(通过使用标签可以从X)让x_{l_{i}}^{\prime}表示d N^{\prime} \times 1向量由连接x_{l i}^{\prime}到中包含的所有子空间的投影S^{\prime}。我们现在训练一个判别分类器D\left(X_{l}^{\prime}, Y_{l}^{\prime}\right),其中X_{l}^{\prime}d N^{\prime} \times N_{l 1}数据矩阵(x_{l i}^{\prime}, i=1 \text { to } N_{l 1}形成列),和Y_{l}^{\prime}是相应的N_{l 1} \times 1标签向量(i^{t h}行对应于y_{l i}),和推断d N^{\prime} \times 1的向量对应于预期目标数据\tilde{x}_{i}^{\prime}。由于d N^{\prime}一般比N_{l 1}高几个数量级,因此我们采用偏最小二乘(PLS)[40]方法来构造D,这种情况下,与LDA[3]等其他判别分析方法不同,PLS在选择最终子空间的维数时提供了灵活性。我们在附录中概述了PLS背后的工作原理。

3.5. Extensions

3.5.1 Semi-supervised Domain Adaptation

3.5.2 Adaptation Across Multiple Domains

也可能在源和目标中有多个域[30,17]。处理k1源域和k2目标域的一种方法是创建生成子空间S_{11}, S_{12}, . ., S_{1 k_{1}},对应源的S_{21}, S_{22}, \dots, S_{2 k_{2}}目标为。从这里我们可以计算源子空间的均值,比如s1,和目标s2的均值。Karcher[24]提出了一种定义流形上点的均值的常用方法。算法3给出了一种求Karcher均值的方法。然后我们在s1和s2之间创建中间子空间,学习分类器D,像以前一样推断目标标签。


4. Experiments

我们首先将我们的方法与现有的2D对象识别方法进行比较[33,7],并通过实验证明了创建中间域的好处。在此过程中,我们还测试了算法的半监督扩展的性能,以及对于具有多个源或目标域的情况。最后,对自然语言处理任务与无监督DA方法进行了比较。

4.1. Comparison with Metric Learning Approach [33]

我们使用了[33]的数据集,它在三个域设置下收集了31个不同的对象类别:来自amazon、dslr相机和webcam的图像。共有4652幅图像,对象类型包括背包、自行车、笔记本、订书机等。amazon域平均每个类别有90个实例,而DSLR和webcam大约有30个实例用于分类。区域偏移是由分辨率、姿态、光照等因素引起的。

我们按照[33]协议提取图像特征来表示对象。我们将所有的图片调整为300 300,并将它们转换成灰度。然后提取SURF特性[2],并将blob响应阈值设置为1000。然后从图像中收集64维SURF特征,通过对amazon数据库随机子集的k-means聚类(矢量量化后)生成800码本。然后,所有域的图像都用对应于码本的800 bin直方图表示。这形成了X和X的数据表示形式,N = 800。从中我们了解到源和目标对应的子空间,并选择子空间维d为两者中较低的(小于N), d的值在185 - 200之间,用于不同的实验数据集。我们通过实验确定了中间子空间的数量为8(即N0 = 10),而PLS维数为p至30(请参阅附录中如何使用PLS获得p维向量)。

我们报告了两个实验设置的结果,(i)源域和目标域都有标签数据——amazon/webcam/dslr的target中每个类别有3个标签,webcam/dslr的源域中每个类别有8个标签,amazon有20个标签;(ii)只有前一半的类别在这两个域中可用标记数据,而后16个类别仅在源域中有标记。对于第一个设置,我们确定来自目标域的所有未标记数据的标识,而对于第二个设置,我们确定来自最后16个类别的未标记目标数据的标签。对于这两个实验,我们都报告了结果在表1(a)和表1(b)中,我们的方法分别在无监督设置(即使可用,我们也不使用来自目标的标签)和半监督设置(使用目标标签)中使用。性能精度(来自目标的全部测试数据上正确分类的实例数量)报告了20多个不同的试验,这些试验对应于源和目标域中不同的标记数据。可以看出,虽然我们的无监督自适应结果略低于[33](这是合理的,因为我们丢弃了所有的对应信息,而[33]使用它们),但是我们的半监督扩展提供了更好的性能改进。还要注意,表1(b)中的结果优于表1(a)中的对应类别,因为前者是16路分类,而后者是31路分类。图2显示了我们的无监督方法的一些检索结果,对应于不同的源和目标域组合。

4.2. Comparison with Semi-supervised SVM’s [7]

然后我们使用了[7]的数据,它有两个域:包含来自Caltech256的图像的目标域(包含256个对象类别)和对应于Bing图像搜索中这些类别的弱标记结果的源域。我们使用classeme特性来表示图像。每个图像由一个2625维的二进制向量表示,该向量对图像[7]的几个语义属性进行建模。我们跟着协议[7]和现在的结果在未标记的目标数据分类的两个实验设置,(我)修复标记样本的数量从源域和改变标签样本目标(从一个),和(2)做反向修正标记目标数据的数量,和不同的标记样本来源。我们还考虑了目标域和源域分别没有标记数据(对应于上述两个设置)的另一个操作点来执行无监督DA。从图3(a)和图3(b)可以看出,我们的方法整体性能较好,准确率随着标记数据数量的增加而增加。性能是通过从目标中正确分类的未标记样本的百分比来测量的,在选择不同标记样本的几个试验中取平均值。

4.3. Studying the information conveyed by intermediate subspaces, and multi-domain adaptation

我们现在通过创建中间域来经验地研究我们获得的信息。我们使用[33,7]的数据来评估算法(无监督情况)在N0的不同值(2到15)上的性能。Sec 4.1和4.2之后。N0 = 2表示没有中间子空间,我们仅使用S1和S2所传递的信息。这为我们的方法提供了一个基线。如图3(c)所示,N0 > 2的所有值都比N0 = 2具有更好的性能。虽然这个结果依赖于数据,但是我们可以看到我们从这些新域中获得了一些信息。

然后,我们对源或目标中存在多个域时的[33]数据进行了实验。我们创建了六种不同的可能性,三种情况下有两个源域和一个目标域,另外三种情况下有两个目标域和一个源域。按照第4.1节中概述的实验设置,我们考虑了所有目标类别的标签情况。我们在表2中提供了我们的无监督和半监督变体的分类精度。虽然我们没有可以比较的基线,但是表1(a)中的结果有一个可能的关系,即目标域是webcam,源域包含dslr和amazon。可以看出,联合源自适应结果位于单个源域情况之间。

4.4. Comparison with unsupervised approaches on non-visual domain data

现在,我们将我们的方法与其他用于自然语言处理任务的无监督DA方法进行比较。我们使用[9]的数据集对情绪分类进行自适应。该数据集包含了来自amazon.com的四个不同领域的产品评论:图书、DVD、电子产品和厨房电器。每个评审都有一个从0到5的评分,一个评审者的名字和位置、查看文本等。评分在3分以上的评价为正面评价,评分在3分以下的评价为负面评价。这里的目标是看看从一个领域学习积极/消极评论的过程是否适用于另一个领域。我们遵循了[9]的实验设置,其中X和X的数据表示为从评论中提取的一元和二元特征。每个领域都有1000个正面和负面的例子,每个领域的数据被分成1600个实例的训练集(源领域)和400个实例的测试集(目标领域,带有隐藏的标签)。表3给出了不同源域和目标域设置下的分类精度。我们看到我们的方法总体上执行得更好,尽管我们没有从bigram/unigram数据特性中识别主特性(与其他两种方法所做的一样)。这个实验也说明了我们的方法在一般非视觉领域的领域适应的实用性。


5. Conclusion

我们提出了一种基于数据驱动的非监督域自适应方法,该方法从增量学习中获得灵感。与现有方法对跨域的转换或特征分布进行假设不同,我们研究了未知域转移上潜在中间域所传递的信息。尽管用于创建这些新域的工具与数据的底层几何结构一致,但是没有标记的目标数据并不允许我们保证这些域在物理上与实际的域转换相对应。因此能够更好的理解无监督领域适应气候变化,以下广泛感兴趣的问题是:(i)利用通用先验在可能的领域转移到创建和遍历身体有意义的中间领域,和(2)探索数据表示线性子空间之外,有一些可取的域不变的属性,可能容纳不同维度的数据域。

发布了261 篇原创文章 · 获赞 137 · 访问量 20万+

猜你喜欢

转载自blog.csdn.net/weixin_37993251/article/details/89358181