《Semantic Autoencoder for Zero-Shot learning》阅读笔记

一、介绍

由CVPR2017收录。利用语义自编码器实现zero-shot learning的工作,其主要贡献是:

(1)提出了一种新的用于zero-shot learning语义自编码模型;

(2)提出了模型对应的高效的学习算法;

(3)算法具有扩展性,可以用于监督聚类问题(supervised clustering问题)。实验证明,该算法在多个数据集上能取得最好效果。

--------------------------------------------------------------------------------------------------------------------------------------------------------------

(1)提出了SAE算法

(2)在一定程度上解决了训练集和测试集的领域漂移(Domain Shift)问题

领域漂移(Domain Shift)问题:当训练集和测试集当的类别相差很大的时候,结果受影响较大。如训练集是动物,测试集为建筑类别;又如马的尾巴和猪的尾巴长度相差较大。

二、整体结构

下图为作者使用的自编码器,共3层(X,S,X~),对原始样本进行编码。

其中X为样本,S为自编码器的隐层,X ~为由隐层重建的X的表示。

隐层S层为属性层,和普通的自编码隐层不同,它是原样本X的抽象语义特征表示。

三、SAE(语义自编码器)

1.设输入层到隐层的映射为W,隐层到输出层的映射为W*,其中W*等于W的转置。由于我们希望输入和输出尽可能相似,则可设目标函数为:

2.文中希望隐层S能够具有抽象的语义,能表示样本属性或者类别标签,所以加入约束WX=S,其中S是样本X对应的特征向量 。每个样本X都可以表示为一个向量S,而这个S是训练集已有的。原本自编码器属于非监督学习,通过这一约束条件就成为了监督学习问题,此时目标函数可以表示为:

因为W*等于W的转置,所以优化为:

进一步优化为:

目标函数中,有WX=S,这样的约束太强,可以想象,需要自编码器的中间层完全等于事先定义好的值,这样的条件实在是太苛刻了。因此,可以将原式写成

这样同时将约束写入了目标函数中,也不需要拉格朗日法进行求解了,只需要简单的步骤就可以进行求解。而上式是个标准二次型的形式,利用矩阵迹的运算进行改写(Tr(X)=Tr(X转置),Tr(W转置乘S)=Tr(S转置W))

求导,导数等于0,可得:

假设:

可得

整体算法如下:


上面式子可写成Sylvester 等式的形式,可以使用Bartels-Stewart算法进行求解,借助Matlab工具箱可以直接求解。

整个算法最核心的地方是在自编码器进行编码和解码时,使用了原始数据作为约束,即编码后的数据能够尽可能恢复为原来的数据。

四、实验

该方法在6个数据集上的zero-shot learning结果都为目前最好。该方法还能解决监督聚类问题(supervised clustering problem),并也能取得目前最好的效果。

以AWA数据集实验为例:

零次学习:基于以上算法有两种测试的方法:

  • 将一个未知的类别特征样本Xi通过W映射到语义空间(属性)S,通过比较语义空间的距离找到离它最近的类别(无训练样本),即为它的标签;
  • 将所有无训练数据类别的语义特征S通过W*映射到特征空间X~,通过比较一个未知类别的样本Xi和映射到特征空间的类别中心X的距离,找到离它最近的类别,即为它的标签
  • 以上两种算法得到结果的准确度基本相同。(W*=W的转置)

监督聚类:在这个问题中,语义空间即为类别标签空间(one-hot class label)。所有测试数据被影射到训练类别标签空间,然后使用k-means聚合

猜你喜欢

转载自blog.csdn.net/qq_28334183/article/details/92975189