Learning from Very Few Samples: A Survey

Introduction

能否快速的从少样本中构建对新概念的认知是区分AI和人类智慧的一个先决条件。
人类显著的学习能力得益于人脑中的前额叶皮层(PFC)和工作记忆,特别是PFC特有的神经生物学机制与大脑中存储的以往经验之间的相互作用。

FSL的意义:
1、FSL不依赖于大规模的训练样本
2、缩小AI和人类智慧的差距
3、速度快成本低——有利于找出任务早期的潜在规律

本文贡献:
1、2000-2019 FSL论文概述(凝固学习-元学习)
2、FSL分类:基于生成模型和基于判别模型
“生成”:直接对后验概率 p ( y ∣ x ) p(y|x) p(yx)进行建模,它以 x x x 作为 判别模型的输入,输出属于 C C C 任务类的 X 的一个概率分布
“判别”:使 用 贝 叶 斯 决 策 ( y ∣ x ) = p ( x ∣ y ) p ( y ) p ( x , y ) (y|x)=\frac{p(x|y)p(y)}{p(x,y)} (yx)=p(xy)p(xy)p(y)来解决
3、当下主流的FSL方法:基于元学习。分类(Learn-to-Measure, Learn-to-Finetune, Learn-to-Parameterize, Learn-to-Adjust and Learn-to-Remember)
4、FSL扩展(半监督FSL、无监督FSL、跨域FSL、广义FSL和多模态FSL)
5、FSL应用总结

FSL History

在这里插入图片描述
2000-2015(非深度)2015-至今(深度):Siamese Nets
代表作:
1、 Congealing algorithm 最早研究如何从很少的样本中学习
2、Variational Bayesian framework (VBF)是第一个阐明术语“one-shot learning”的工作
3、Bayesian Program Learning (BPL)通过在对新概念的认知中充分利用人的组合性、因果性和想象力的能力,达到了人类级别的one-shot字符分类效果
4、Siamese CNN 在成对样本上学习一个类无关的相似性度量
5、 基 于 生 成 模 型 { N e u r a l S t a t i s t i c i a n S e q u e n t i a l G e n e r a t i v e M o d e l 基于生成模型\left\{ \begin{array}{l} Neural Statistician \\ Sequential Generative Model \end{array} \right. { NeuralStatisticianSequentialGenerativeModel
6、 基 于 判 别 模 型 { M a t c h i n g N e t s M A M L M e t a − L e a r n e r L S T M M A N N M e t a N e t P r o t o t y p i c a l N e t s R e l a t i o n N e t L G M − N e t s 基于判别模型\left\{ \begin{array}{l} Matching Nets \\ MAML\\ Meta-Learner LSTM\\ MANN\\ MetaNet\\ Prototypical Nets\\ Relation Net\\ LGM-Nets \end{array} \right. MatchingNetsMAMLMetaLearnerLSTMMANNMetaNetPrototypicalNetsRelationNetLGMNets

Generating model based approaches

在这里插入图片描述
除了Neural Statistician之外,剩余者出生在 FSL 开发过程的非深期,其中大多数是根据特定的任务形式或数据形式量身定做的,缺乏 对更一般情况的可伸缩性。 此外,这些早期工作在不同评价设置的各种实验数据集上得到了验证,没有形成一些可比 的基准,供当时的后续 FSL 研究使用。

Discriminant model based approaches

增强

在这里插入图片描述

有监督增强

在这里插入图片描述
Feature Trajectory Transfer (FFT):利用场景图像 中的连续属性(例如“雨”、“暗”或“晴天”)来定向地综合一个示例任务场景类的特征。特别是,FFT 建议在辅助场景类上学习线性映射轨迹,将属性 a ∈ R + a\in R_+ aR+ 映射到特征 x ∈ R d x\in R^d xRd
x = w × a + b + ϵ x=w \times a+b+\epsilon x=w×a+b+ϵ
w w w, b b b都是可学习参数, ϵ \epsilon ϵ是高斯噪声。
在这里插入图片描述
缺点:需要细粒度和连续的属性注释

AGA:解编码器,映射方向: Ω f e − > Ω f e \Omega_{fe}->\Omega_{fe} Ωfe>Ωfe在这里插入图片描述

无监督增强

Including GentleBoostKO, Shrinking and Hallucinating (SH), Hallucinator, CP-ANN, ∆-encoder, DAGAN and IDeMe-Net etc

Knockout是通过将特征的一个元素替换为同一坐标中的另一个特征的元素来实现的。它的关键洞察力是创建极少数样本的损坏副本,以提高鲁棒性
SH中潜在的类内变化需要以四重形式 ( f 1 a , f 2 a , f 1 b , f 2 b ) (f_1^a, f_2^a, f_1^b, f_2^b) (f1a,f2a,f1b,f2b)从隐式转换类比中挖掘
CP-ANN通过生成对抗网络(GAN)实现对少数支持样本的特征增强
在这里插入图片描述

度量学习

度量学习的一般目的是学习一个成对相似度度量,在 此条件下,相似样本对可以获得较高的相似性评分,而不同 样本对则获得较低的相似性评分。
在这里插入图片描述
在这里插入图片描述
CRM:
在这里插入图片描述
KernelBoost:
在这里插入图片描述
K t ( x i , x j ) K_t(x_i,x_j) Kt(xi,xj)代表 x i x_i xi x j x_j xj同时属于 t t t-th高斯混合模型的概率
优化:
在这里插入图片描述
y i j = { 1 , x i 和 x j 属 于 一 类 − 1 , x i 和 x j 不 属 于 一 类 y_{ij}=\left\{ \begin{array}{l} 1 , x_i 和 x_j 属于一类\\ -1, x_i和x_j不属于一类 \end{array} \right. yij={ 1,xixj1,xixj

Siamese Nets:
在这里插入图片描述
在这里插入图片描述
y i j = { 1 , x i 和 x j 属 于 一 类 0 , x i 和 x j 不 属 于 一 类 y_{ij}=\left\{ \begin{array}{l} 1 , x_i 和 x_j 属于一类\\ 0, x_i和x_j不属于一类 \end{array} \right. yij={ 1,xixj0,xixj

元学习

一般来说,元学习提倡跨任务学习,然后适应新的任务。它旨在学习任务水平而不是样本,并学习任务无关的学习系统而不是特定于任务的模型。
在这里插入图片描述

分类:Learn-to-Measure (L2M), Learn-to-Finetune (L2F), Learn-to-Parameterize (L2P), Learn-to-Adjust (L2A) and Learn-to-Remember (L2R)

L2M

L2M 方法采用元学习策略来学习期望在不同任务中可传递的相似度量。
在这里插入图片描述

L2F

一般来说,每种 L2F 方法都包含一个基础学习者和一个元学习者。
基础学习者是针对特定的任务,以样本为输入,输出预测概率。
基础学习者是由在一系列元训 练任务上学习的高级元学习者学习的,以最大限度地提高基础学习者对所有任务的综合泛化能力。

MAML:
在这里插入图片描述
Meta-Learner LSTM:
在这里插入图片描述

L2P

为新任务参数化基础学习者或基础学习者的某些子部件,以便它能够具体地解决这个任务。
对于 L2P 方法,两个学习者在每个任务中同步训练,元学习者本质上是一个特定于任务的参数生成器。
在这里插入图片描述

L2A

L2A 方法的核心思想是为特定样本自适应地调整基础学习者中的计算流程或计算节点,使该样本与基础 学习者兼容。
在这里插入图片描述

L2R

其主要思想是将 FSL 任务的支持集建模为序列,并将 FSL 任务表述为序列学习任务,其中查询样本需要与先前看到的信息(即支持样本)相匹配。
因此,L2R 方法的基本学习者通常需要一个时间网络来处理少数支持样本。
在这里插入图片描述
MANN, ARCS, SNAIL, APL

小结

L2M 方法不会受到测试场景的特定设置的限制,因为它们只利用样本之间的相似性来进行最终推理,而不管类的数量和每个类的支持样本(即方式/镜头无关)。
L2F 方法需要使用少数支持样本对每项新任务进行微调,这可能会产生一个相对较长的适应期来准备每项任务。
L2P 和 L2A 方法面临的一个共同挑战是大量的模型参数,因为它们必须部署与基础学习者完全不同的另一个元学习者来生成一系列的模型参数或调整参数。此外,元学习者的模型复杂度严重依赖于需要生成的参数量,从而增加了模型训练的难度。
由于序列学习中长期依赖的上限效应,L2A 方法很难在任务中用稍多的支持样本来概括这种情况。

拓展话题

Semi-supervised FSL (S-FSL)-半监督FSL
Unsupervised FSL (U-FSL)-无监督FSL
Cross-domain FSL (C-FSL)-跨域FSL
Generalized FSL (G-FSL)-广义FSL
Multimodal FSL (M-FSL)-多模态FSL

Future Directions

提高鲁棒性
提高普遍性: 首先是FSL方法的模型级通用性和可扩展性。 其次是FSL方法的应用级通用性和灵活性。
可解释性:近年来FSL的兴起和成功主要在于深度学习技术,而深度学习技术常因其缺乏可解释性而受到批评。
构建理论体系:稀疏训练样本造成的根本困难在于,由于缺乏训练样本形成有效的函数正则化,学习函数 f f f的搜索空间非常大。因此,从稀疏训练样本下正则化学习函数空间的角度构建系统的FSL理论体系,可以给FSL研究者带来新的启发。

Reference

Congealing
VBF
BPL
Siamese Nets
Neural Statistician
Sequential Generative Model
Matching Nets
MAML
Meta-Learner LSTM
MANN
MetaNet
Prototypical Nets
Relation Net
LGM-Nets
度量学习

论文地址

猜你喜欢

转载自blog.csdn.net/Goodlick/article/details/108637014