Self-Supervised Learning of Pretext-Invariant Representation

Self-Supervised Learning of Pretext-Invariant Representation

1.论文摘要

提出了一种不根据不同pretext task 中 的图像变换而改变的语义表征自监督学习方法(Pretext Invariant Representation Learning-PIRL).通过该方法学到的图像表征具有invariance 特性,且语义质量更高,并超过了许多有监督学习预训练任务的表现。

2.论文方法

其他论文的思路是将原始图片经过变换后,预测图像变换的一些性质,因此学到的特征是随着这种变换的不同而改变的低级特征,对于一些语义识别任务表现不好。
在这里插入图片描述
本文的PIRL: 首先定义一个表征网络N;图像A经过N得其表征为A_f,对图像A处理(如上图所示的拼图重排)后得图像a经过N得其表征为a_f;经过训练后使得A_f和a_f尽可能相近,同时A_f和x_f(x≠a)却相差很大。

通过最小化经验损失来训练网络参数。其中 D D D代表图像数据集,p(T)代表图像transfomation的分布, I t I^t It代表经过变化t后的图像, θ \theta θ代表网络参参数, V I V_I VI代表图像经过网络学到的特征。
在这里插入图片描述

  • Loss Function
    定义了一个Contrastive loss function L, 目标是让图像I的表征尽可能与其转换后的 I t I^t It相似,与其他图像数据的表征尽可能的不同。
    在这里插入图片描述
    s ( ⋅ , ⋅ ) s(·,·) s()代表余弦相似的计算,并且在计算s之前让特征经过不同的”head" 的计算, g(·)和f(·).
    在这里插入图片描述
    为了增加负例的个数而不增加batch size,采用了Memory bank的方式。 在M中包含了每个图片I的特征表示,通过exponetial moving average的方法更新之前epoch计算的 f ( V I ) f(V_I) f(VI).
    在这里插入图片描述
    最终loss function
    在这里插入图片描述
    其中第二项使得 f ( V I ) f(V_I) f(VI)尽可能和memory表征 m I m_I mI相似,使得其和 m I ’ m_I’ mI尽可能不想似。
  • 实现细节
    f ( V I ) f(V_I) f(VI): 图像I经res5网络(即ResNet-50的前5层),然后进行一次average pooling和一次线性映射得到一个128维的向量表征;
    g ( V ( I t ) ) g(V_(I^t)) g(V(It)): 图像I分为3块拼图,每块拼图都分别经res5网络处理后进行一次average pooling, 然后分别进行一次线性映射得到3个总共128维的向量,将这3个向量随机排序后合并,然后再进行一次线性映射得到一个128维的向量表征;

3.实验结果

在这里插入图片描述
在目标检测任务超过了其他自监督学习方法, 并对原始Jigsaw pretext task 预训练结果提升了五个点。在其他任务如IMage classification with linear models 和不同数据集上也都取得了超过其他自监督预训练的方法。
在这里插入图片描述
通过对比原始图像表征和转换后图像表征的l2 distance,证明PIRL学到的表征是invariant。

猜你喜欢

转载自blog.csdn.net/pitaojun/article/details/108563762