Learning to Compare: Relation Network for Few-Shot Learning

文章目录

1. Introduction

深度学习模型已经在视觉识别任务上取得了巨大进展。然而，这些监督学习模型需要不仅大量标注好的数据，并且还要迭代很多次来训练大量参数。由于标注的花费，严重影响了他们在新类上的可拓展性，更从根本上限制了它们对新出现（eg：新的类别）或者稀有（eg：稀有动物）的类别，这些类别可能根本不存在许多带注释的图像。相比之下，人类非常擅长识别带有少量标注的物体，或根本没有，即：小样本或者零样本。例如，孩子们可以从书中的一幅图画中归纳出“斑马”的概念，或者听到描述它看起来像一匹带条纹的马。由于传统的深度学习方法未能很好地在只有一个或几个例子的类上工作，以及受到人类在小样本和零样本学习能力的启发，最近在小样本和零样本学习开始兴起。

“小样本学习”旨在从极少的标记例子中识别新的视觉类别。只有一个或很少的例子对深度学习的标准“微调”实践提出了挑战。数据增强和正则化技术可以缓解这种有限数据条件下的过拟合，但不能解决这个问题。因此，当代的小样本学习方法经常将训练分解为辅助元学习阶段，在这个阶段中，可转移知识以良好初始条件、嵌入或优化策略的形式学习。
然后，通过使用学习到的优化策略微调或者在不更新网络权值的情况下前馈传递来学习目标的小样本学习问题。零样本学习也受到了相关挑战。识别器通过一个类描述形式的单个示例(c.f.，一次拍摄单个示例图像)进行训练，这使得基于梯度的学习面临数据不足的挑战。

虽然有前景，但大多数现有的小样本学习方法要么需要复杂的推理机制，复杂的循环神经网络(RNN)架构，要么对目标问题进行微调。我们的方法与其他旨在训练一次性学习的有效度量标准的方法最相关。他们关注于可转移嵌入的学习和预先定义一个固定的度量(例如，如欧几里得)，我们进一步的目标是学习一个可转移的深度度量，用于比较图像之间的关系(小样本学习)，或图像和类描述之间的关系(零样本学习)。通过表达更深层次解的归纳偏差(在嵌入和关系模块上的多个非线性学习阶段)，我们可以更容易地学习问题的一般化解。

具体地说，我们提出了一个两分支关系网络(RN)，通过学习比较查询图像与少量标记样本图像进行小样本识别。首先，一个嵌入模块生成查询和训练图像的表示。然后通过一个关系模块来比较这些嵌入，以确定它们是否来自匹配的类别。受[39,36]启发，定义了基于情节的策略，嵌入和关系模块是端到端元学习的，以支持少量学习。这可以看作是[39,36]策略的扩展，包括一个可学习的非线性比较器，而不是固定的线性比较器。我们的方法优于之前的方法，同时更简单(没有rnn)和更快(没有微调)。我们提出的策略也可以直接推广到零样本学习。在这种情况下，样本分支嵌入了一个单一的类别描述，而不是一个单一的范例训练图像，而关系模块学习比较查询图像和类别描述嵌入。

2. Related Work

一段时间以来，对单样本或小样本物体识别的研究一直是人们关注的焦点。早期关于小样本学习的研究往往涉及具有复杂迭代推理策略的生成模型。随着基于区别性深度学习的方法在数据丰富的多样本场景下的成功，人们对将这种深度学习方法推广到少镜头学习场景的兴趣激增。这些方法中有许多使用元学习或学习怎么学习策略，从一组辅助任务中提取一些可转移的知识(元学习，学习-学习)，这有助于他们很好地学习目标小样本问题，而不会遭受在将深度模型应用于稀疏数据问题时可能预期的过拟合。

Learning to Fine-Tune

学习微调

成功的MAML方法[10]的目标是元学习一个初始条件(神经网络权值集)，这有利于对小样本问题进行微调。这里的策略是搜索给定神经网络的权值配置，以便在几个梯度下降更新步骤中有效地调整稀疏数据问题。从多任务训练集中抽取多个不同的目标问题;然后，对基础神经网络模型进行微调，以解决其中的每一个问题，在微调后，每个目标问题的成功会在基础模型中进行更新，从而产生易于微调的初始条件。小样本优化方法在元学习方面走得更远，不仅是一个良好的初始条件，而且是一个基于LSTM的优化器，经过训练可以特别有效地进行微调。然而，这两种方法都需要对目标问题进行微调。相比之下，我们的方法以完全前馈的方式解决目标问题，不需要模型更新，使其更方便于低延迟或低功耗应用程序。

RNN Memory Based

基于RNN记忆

另一类方法利用记忆的循环神经网络。这里的思想通常是，RNN迭代给定问题的一个例子，并在其隐藏激活或外部内存中积累解决该问题所需的知识。新的例子可以被分类，例如，将它们与记忆中存储的历史信息进行比较。因此，在展开RNN时可以“学习”单个目标问题，而“学习-学习”意味着通过学习许多不同的问题来训练RNN的权值。虽然很吸引人，但这些架构面临的问题是确保它们可靠地存储所有可能长期的历史相关信息而不被遗忘。在我们的方法中，我们避免了循环网络的复杂性，以及涉及到确保其内存充分性的问题。相反，我们的学习-学习方法完全是用简单和快速的前馈CNN定义的。

Embedding and Metric Learning Approaches

嵌入和度量学习方法
以往的方法在学习目标少射击问题时存在一定的复杂性。另一类方法旨在学习一组投影函数，从目标问题中获取查询和样本图像，并以前馈方式对其进行分类[39,36,4]。一种方法是根据样本集[4]参数化前馈分类器的权重。这里的元学习是训练辅助参数化网络，学习如何根据小样本问题的样本集对给定的前馈分类问题进行参数化。基于度量学习的方法旨在学习一组投影函数，以便在嵌入中表示图像时，使用简单的最近邻或线性分类器很容易识别图像。在这种情况下，元学习的可转移知识是投影函数，目标问题是一个简单的前馈计算。

与我们最相关的方法是原型网络和孪生网络。这些方法侧重于学习嵌入，这些嵌入将数据转换为可以用固定的最近邻或线性分类器识别的数据。相比之下，我们的框架进一步定义了关系分类器CNN，风格为[33,44,14] (而[33]侧重于推理同一图像中两个对象之间的关系，这是为了解决不同的问题)。与[20,36]相比，这可以被视为提供了一个可学习的而不是固定的度量，非线性而不是线性分类器。与[20]相比，我们受益于从头到尾的情景式训练策略，与[32]相比，我们避免了样本集到样本集的RNN嵌入的复杂性，而仅仅依赖于池化[33]。

Zero-Shot Learning

零样本学习

我们的方法是为小样本学习设计的，但通过修改样本分支，输入单一类别描述，而不是单一训练图像，优雅地将空间跨越到零样本学习(ZSL)。当应用于ZSL时，我们的体系结构涉及到学习对齐图像和类别嵌入的方法，并通过预测图像和类别嵌入对是否匹配来执行识别。与之前的基于度量的小样本方法类似，这些方法在结合图像和类别嵌入后，大多采用固定的人工定义的相似度度量或线性分类器。相比之下，我们再次受益于更深层次的端到端架构，包括我们学习的卷积关系网络形式的非线性度量;以及基于情景的训练策略。

3. Methodology

3.1. Problem Definition

问题定义

我们考虑的任务是小样本分类器学习。形式上，我们有三个数据集:一个训练集、一个支持集和一个测试集。支持集和测试集共享相同的标签空间，但训练集有自己的标签空间，与支持&测试集不相交。如果支持集中包含C个类，每个类有K个带标记的例子，则目标小样本问题称为C-way K-shot。

只使用支持集，原则上我们可以训练分类器为测试集中的每个样本 $\hat{x}$ 分配一个类标签 $\hat{y}$ 。然而，由于支持集中缺乏带标签的样本，这种分类器的性能往往不令人满意。因此，我们的目标是对训练集进行元学习，提取可转移的知识，使我们能够在支持集上进行更好的少镜头学习，从而更成功地对测试集进行分类。

利用训练集的一种有效方法是通过基于情境的训练来模拟小样本的学习设置，如[39]中所提出的。在每个迭代训练,一个情境是从训练集中随机选择C类标签，每个类有K个标注好的样本作为样本集 $\{({x_i},y_i)\}^m _{i=1}, (m = K×C)$ ,以及剩余的一小部分C类的样本作为查询集 $\{({x_i},y_i)\}^n _{j=1}$ 。
此样例/查询集分离设计用于模拟测试时将遇到的支持/测试集。如果需要，可以使用支持集进一步调整从样本/查询集训练出来的模型。在这项工作中，我们采用了这种基于情景的培训策略。在我们的几次射击实验中(见4.1节)，我们考虑了一次射击(K = 1，图1)和五次射击(K = 5)的设置。我们还讨论了K = 0的零射击学习案例，如第3.3节所述。

3.2. Model

模型

One Shot

我们的关系网络（RN）包括两个部分：一个嵌入模块 $f_\varphi$ 和一个关系模块 $g_ \phi$ ，如图1所示。查询集 $Q$ 中的样本 $x_j$ 和样本集 $S$ 中的样本 $x_i$ 通过嵌入模块 $f_\varphi$ 输入，其中 $f_\varphi(x_i)$ 和 $f_\varphi(x_j)$ 生成特征映射。特征映射 $f_\varphi(x_i)$ 和f_\varphi(x_j)$用操作
$C(f_\varphi(x_i)， f_\varphi(x_j))$ 组合。在本研究中，我们假设 $C (\cdot ， \cdot)$ 是深度特征映射的连接，尽管也有其他选择。

将样本与查询的组合特征映射输入关系模块 $g_\phi$ ，最终生成一个0 ~ 1范围内的标量表示 $x_i$ 与 $x_j$ 之间的相似度，称为关系得分。因此，在 $C$ -way one-shot 设置中，我们为一个查询输入 $x_j$ 和训练样本集示例 $x_i$ 之间的关系生成 $C$ 个关系得分 $r_{i,j}$ ，
$r_{i,j} = g_\phi(C(f_\varphi(x_i)， f_\varphi(x_j)),i=1,2,...,C \tag{1}$
在这里插入图片描述

K-shot

对于K > 1的K-shot，我们对每个训练类的所有样本的嵌入模块输出进行元素级求和，形成该类的特征映射。这个汇集的类级特征映射与上面的查询图像特征映射相结合。因此，在one-shot或few-shot次查询设置中，一个查询的关系得分总是C。

Object function

我们使用均方误差(MSE)损失(等式.(2))来训练我们的模型，将关系得分 $r_{i,j}$ 回归:匹配的对相似度为1，不匹配的对相似度为0。
$\varphi,\phi \longleftarrow \underset{\varphi,\phi }{\mathrm{argmin}} \sum^{m}_{i=1}\sum^{n}_{j=1}(r_{i,j}-1(y_i==y_j))^2\tag{2}$

MSE的选择有些不标准。我们的问题似乎是一个标签空间 ${0,1}$ 的分类问题。然而，在概念上，我们预测的是关系分数，这可以被认为是一个回归问题，尽管对于ground-truth，我们只能自动生成 ${0,1}$ 目标。

3.3. Zero-shot Learning

零距离学习类似于一次性学习，即给出一个数据来定义要识别的每个类。然而，不是给每个 $C$ 训练类一个一次性图像的支持集，而是为每个类包含一个语义类嵌入向量 $v_c$ 。对我们的框架进行修改以处理l零样本问题是很简单的:由于对支持集使用了不同的语义向量(例如，用属性向量代替图像)，除了用于图像查询集的嵌入模块 $f_{\varphi1}$ 外，我们还使用了第二个异质嵌入模块 $f_{\varphi2}$ 。然后像前面一样应用关系网 $g_\phi$ 。因此，每个查询输入 $x_j$ 的关系得分为:
$r_{i,j} = g_\phi(C(f_{\varphi1}(x_i)， f_{\varphi2}(x_j)),i=1,2,...,C \tag{3}$

零样本学习的目标函数与小样本学习的目标函数相同。

3.4.Network Architecture

网络结构

由于大多数的小样本学习模型使用4个卷积块进行嵌入模块，我们遵循相同的架构设置，以进行公平比较，如图2所示。具体来说，每个卷积块分别包含一个3 × 3的64个filter卷积层、一个批处理归一化和一个ReLU非线性层。前两个块也包含一个2 × 2的最大池层，而后两个不包含。我们这样做是因为我们需要输出特征映射用于关系模块中进一步的卷积层。关系模块由两个卷积块和两个完全连接的层组成。每个卷积块是一个3 × 3卷积，包含64个滤波器，然后进行批归一化、ReLU非线性和2 × 2最大池化。最后一个最大池化层的输出大小分别为Omniglot数据集的H = 64和miniImageNet的H = 64∗3∗3 = 576。两个完全连通的层分别是8维和1维。所有完全连接的层都是ReLU，除了输出层是Sigmoid，以便为我们的网络架构的所有版本在一个合理的范围内生成关系得分。
在这里插入图片描述

zero-shot学习架构如图3所示。在这种体系结构中，DNN子网是在ImageNet上预训练的现有网络(例如Inception或ResNet)。
在这里插入图片描述

4.Experiments

我们在两个相关的任务上评估了我们的方法:在Omniglot和miniImagenet上的小样本分类和在动物属性(AwA)和Caltech-UCSDBirds-200-2011(CUB)上的零样本分类。所有实验都是基于PyTorch实现的。

4.1 Few-shot Recognition

配置

所有实验中的少镜头学习都使用Adam，初始学习速率为 $10^{-3}$ ，每100,000情境减半。我们所有的模型都是从头到尾从头训练的，没有额外的数据集。
Baselines
我们比较了几种最先进的小样本识别的基线，包括神经统计学家[8]、带和不带微调的匹配网络[39]、MANN[32]、带记忆[18]的孪生网络、卷积孪生网络[20]、MAML[10]、元网络[27]、原型网络[36]和元学习者LSTM[29]。

4.1.1 Omniglot

数据集
Omniglot[23]包含来自50个不同字母的1623个字符(类)。每个类包含由不同的人绘制的20个样本。接下来[32,39,36]，我们通过对已有数据进行 $90 ° 180 ° 270 °$ 进行旋转产生新类，和使用1200原来的类加上旋转进行训练和剩余的423类加上进行旋转进行测试。所有输入图像的大小调整为28 × 28。
训练

除了K个样本图像外，对于每个训练集的C个抽样类，5-way 1-shot包含19个查询图像，5-way 5-shot包含15个查询图像，20-way 1-shot包含10个查询图像，20-way 5-shot包含5个查询图像。
例如，5-way 1-shot实验在一个训练集/小批中有19 × 5 + 1 × 5 = 100张图像。

每个类有19张测试，1张作为依据。一共有5个类。这样就是(19+1)*5 = 100张。

结果
[36]之后，我们在Omniglot上计算了少量镜头的分类精度，从测试集中平均超过1000个随机生成的片段。对于1个镜头和5个镜头的实验，我们对每个类分别批处理1个和5个查询图像，在测试时进行评价。结果如表1所示。除了5-way 5-shot(我们的模型比[10]的精度低0.1%)之外，我们在所有实验设置下都实现了最先进的性能。尽管许多备选方案具有更复杂的机制[27,8]，或对目标问题进行微调[10,39]，但我们没有。

4.1.2 miniImageNet

数据集
最初由[39]提出的miniImagenet数据集由6万张彩色图像组成，包含100个类，每个类有600个示例。我们遵循[29]引入的分离，训练集、验证集、测试集分别有64、16和20个类。这16个验证类仅用于监视泛化性能。
训练
我们按照目前大多数的少镜头学习工作所采用的标准设置，进行了5way 1-shot 和 5-shot分类。除了K个样本图像外，每个训练集C个样本类的每个类中，5-way 1-shot中还包含15个查询图像，5-way 5- shot中查询图像为10个。这意味着例如，在在一个训练集/小批量 5-way 1-shot实验中，有15×5+1×5 = 80张图片。我们调整输入图像的大小为84 × 84。我们的模型是从头到尾从头训练的，采用随机初始化，没有额外的训练集。
结果
在[36]之后，我们在每个情境中分批处理15张查询图像，用于1-shot和5-shot的评估，通过从测试集中随机生成超过600个情境，计算出小样本分类准确率。从表2可以看出，我们的模型在5-way 1-shot设置上取得了最先进的性能，在5-way 5-shot设置上取得了比较有竞争力的结果。但是，原型网络[36]报告的1-shot结果需要在每个训练集进行30-way 15个查询的训练，而5-shot结果需要在每个训练集进行20-way 15个查询的训练。在每集训练中使用5-way 15查询进行训练时，[36]的单次评分仅为46.14±0.77%，明显弱于我们。与[36]相比，我们所有的模型都是在5-way, 1-shot的1个查询和5-shot的5个查询中进行训练，训练查询比[36]少得多。
在这里插入图片描述

4.2 Zero-shot识别

数据集和配置
我们遵循两个ZSL设置:旧的设置和[42]提供的用于拆分训练集和测试集的新GBU设置。在旧的设置下，现有的大多数ZSL工作在[42]之前采用的，一些测试类也出现在ImageNet 1K类中，用于预训练图像嵌入网络，从而违反了零样本假设。相反，新的GBU设置确保没有数据集的测试类出现在ImageNet 1K类中。在这两种设置下，测试集只能由看不见的类样本(传统的测试集设置)组成，或者由看不见的类样本和看不见的类样本组成。后者被称为广义零射击学习(GZSL)，在实践中更为现实。

在旧的设置中选择了两个广泛使用的ZSL基准:AwA (Animals with Attributes)[24]由50类动物的30,745张图像组成。它在40个训练类和10个测试类中有一个固定的分割用来评估。CUB (Caltech-UCSD Birds-200-2011)[40]包含了200种鸟类的11788张照片，有150个可见类和50个不相连的不可见类。GBU设置选择了三个数据集[42]:AwA1、AwA2和CUB。新发布的AwA2[42]由50类37322张图像组成，是AwA的一个扩展，而AwA1和AwA相同，只是在GBU设置下。
** 语义表示**
对于AwA，我们使用来自[24]的连续的85维类级属性向量，它已经被最近的作品广泛使用。对于CUB，使用了一个连续的312维类级属性向量。
实现细节
在零样本学习中，两种输入模式分别使用了两种不同的嵌入模块。在传统的旧设置中，我们使用InceptionV2[38,17]作为查询图像嵌入DNN，在GBU和泛化设置中使用ResNet101[16]，将顶层池单元分别作为D = 1024和2048的图像嵌入。这种DNN是在ILSVRC 2012 1K分类上预先训练的，没有微调，正如最近深度ZSL的工作[25,30,45]。采用MLP网络嵌入语义属性向量。对于AwA和CUB，分别将隐藏层FC1(图3)的大小设置为1024和1200，输出大小FC2设置为与两个数据集的图像嵌入相同的尺寸。在关系模块中，将图像和语义嵌入连接起来，然后送入分别为AwA和CUB的隐藏层FC3大小为400和1200的mlp。
我们在FC1和2中添加了权重衰减(L2正则化)，因为在ZSL的交叉模态映射中存在hub度问题[45]，这可以通过将语义特征向量映射到正则化的视觉特征空间来最好地解决。然后，使用FC3和4(关系模块)计算语义表示(在视觉特征空间中)与视觉表示之间的关系。由于在这一步中不存在hub问题，因此不需要L2正则化/重量衰减。所有的ZSL模型都在嵌入网络中以 $10^−5$ 的权值衰减进行训练。使用Adam[19]将学习速率初始化为 $10^−5$ ，然后每20万次迭代降低一半。
旧配置下的结果
传统的ZSL评估，以及之前的大部分工作，都假定测试数据都来自不可见的类。我们首先评估这个设置。我们比较了表3中的15种备选方法。仅使用属性向量作为样本类嵌入，我们的模型在AwA上取得了具有竞争力的结果，在挑战性更大的CUB数据集上取得了最先进的性能，远远超过了最相关的备选原型网络[36]。注意，这里只考虑归纳方法。最近的一些方法(48、12、13)tranductive在他们使用所有测试数据,模型训练,这给了他们一个巨大的优势的成本做一个假设,即在实际应用中可能不会遇到，所以在此不作比较。
在GBU设置下的结果
我们遵循[42]的评估设置。我们将我们的模型与表4中的11个备选ZSL模型进行了比较。10个浅层模型的结果来自[42]，最先进的方法DEM[45]的结果来自作者的GitHub page1。我们可以看到，在AwA2和CUB上，我们的模型在使用调和平均值(H)度量的更现实的GZSL设置下特别强。而在AwA1上，我们的方法仅优于DEM[45]。
在这里插入图片描述

5. Why 关系网络工作？

5.1 和现有网络的关系

相关的前期小样本工作使用固定的预先指定的距离度量，如欧几里德或余弦距离来进行分类[39,36]。这些研究可以看作是距离度量学习，但是所有的学习都发生在特征嵌入中，并且一个固定的度量被给定学习的嵌入。同样相关的还有传统度量学习方法[26,7]，该方法专注于学习用于固定特征表示的浅(线性)马氏度量。相对于以往的固定度量或固定特征和浅层学习度量，关系网络可以被视为学习深度嵌入和学习深度非线性度量(相似函数)。它们是端到端相互调优的，以便在短时间内相互支持。

为什么这可能特别有用?通过使用灵活的函数逼近器来学习相似度，我们可以以数据驱动的方式学习一个好的度量，而不必手动选择正确的度量(欧几里得，余弦，马氏)。像[39,36]这样的固定指标假设功能只是在元素方面进行比较，而最相关的[36]假设在嵌入后是线性可分的。因此，这些关键依赖于学习到的嵌入网络的效能，并因此受到嵌入网络产生不充分鉴别表征的程度的限制。而通过将非线性相似度深度学习与嵌入相结合，关系网络可以更好地识别匹配/不匹配对。

5.2 可视化

为了说明前面关于学习输入嵌入的充分性的观点，我们展示了一个综合例子，其中现有的方法肯定失败了，而我们的关系网络可以通过使用深度关系模块获得成功。假设二维查询和样本输入嵌入到一个关系模块中，图4(a)显示了一个固定的二维查询输入的二维样本输入空间。每个样本输入(像素)都根据它是否与固定查询匹配而着色。这代表了一个情况下，嵌入模块的输出没有足够的区别性，用于查询和样本集之间的琐碎(欧几里德-神经网络)比较。在图4©中，我们尝试通过Mahalanobis度量学习关系模块学习匹配，我们可以看到结果是不充分的。在图4(d)中，我们进一步学习了查询和样本输入的2隐藏层MLP嵌入，以及随后的马氏度，这也是不够的。只有学习全深度相似度关系模块，我们才能解决图4(b)中的问题。
在这里插入图片描述
在实际问题中，比较嵌入的困难可能没有这么极端，但它仍然具有挑战性。我们定性地说明了匹配两个示例Omniglot查询图像(嵌入投影到2D，图5(左))的挑战，通过显示匹配(青色)或不匹配(紫色)的真实样本图像与两个示例查询(黄色)的类似图。在标准假设[39,36,26,7]下，青色匹配样本应该是与具有一定度量(欧几里德，余弦，马氏)的黄色查询图像最近邻。但是我们可以看到，匹配关系比这要复杂得多。在图5(右)中，我们根据每个查询样本对的2D PCA（降维）表示绘制了相同的两个示例查询，这由关系模块的倒数第二层表示。我们可以看到，关系网络已经将数据映射到一个空间，其中(错误)匹配对是线性可分的。
在这里插入图片描述

6. Conclusion

我们提出了一种简单的方法称为关系网络的小样本和零样本学习。关系网络学习嵌入和深度非线性距离度量用于比较查询和样本项目。利用情景训练对网络进行端到端训练，调整了嵌入和距离度量，从而实现有效的小样本学习。这种方法比最近的小样本元学习方法更简单、更有效，并产生了最先进的结果。它进一步证明在常规和泛化零样本设置有效。