《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》 - 代码天地

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》

其他 2018-08-20 00:41:52 阅读次数: 0

来源：CVPR2018

一、Introduction

第一篇同时利用GAN和Reinforcement Learning(RL)做跨媒体检索的文章。
这个网络可以同时做三个跨媒体的任务：cross-media retrieval，image caption and text-to-image synthesis（对于后两个任务，文章只给出了可视化的结果，没有给出定量的分析）。
这篇文章发表在CVPR2018上并且是Spotlight，在MSCOCO上cross-media retrieval的性能达到state-of-the-art。

文章要做的事情（cross-media retrieval）：

输入：image（sentence）+dataset 　　　　　输出：sentence（image）rank list

文中将生成过程结合到跨模态特征嵌入中，通过该方法我们不仅可以学习全局抽象特征还有局部层次特征。

二、Contributions:

1.我们将两个生成模型结合到传统的文本-视觉特征嵌入中。

2.对基准数据集MSCOCO进行了广泛的实验。实验表明，底层和抽象特征的组合可以显著改善跨模态图像标题检索的性能。

三、Model：

GXN模型的主旨:

主要包含三个步骤：Look、Imageine、Match

Look：给出一个查询文本或图像，提取出对应的抽象表示。

Image:将第一步中得到的一种模态的特征表示生成为另一种模态表示，并将其和真实数据进行比较来生成一个更加精细的底层表示。

Match:使用组合了高层抽象表示和局部底层表示的特征表示来进行图像-文本对的关联匹配。

提出的生成式跨模态特征学习框架

（generative cross-modal feature learning framework，GXN）

1、第一个部分相似于已经存在的跨模态特征表示:将不同模态的特征映射到一个公共的空间；不同之处在于本文使用了两路的特征表示来使表示出的视觉特征和文本特征接近。

作为高层抽象特征而

作为精细的的底层特征。底层特征被用来指导其他两路进行生成式的特征学习。整个第一部分主要包括一个图像编码器

和两个语句编码器

和

第二部分（蓝色通道）利用底层视觉特征

来生成一个描述语句。它包括一个图像编码器

和一个语句解码器

通过设置一个合适的loss函数来与真实的文本描述进行对抗训练，并通过反向传播来调整

第三部分（绿色通道）通过使用一个生成对抗模型来从文本特征

中生成一副图像，包括一个生成器/解码器

和一个判别器

最终，通过两路的跨模态特征生成学习，希望学习到强大的跨模态特征表示，在测试时

和

将会作为最终的特征表示来进行跨模态检索。

跨模态特征表示

给出一个图像-文本对

首先对每个模态的数据分别进行编码，

其中

和

为线性映射函数，

和

分别是图像和文本描述的映射向量。

与普通的跨模态特征表示方法一样，本文使用了一个二元ranking loss来学习模型参数，考虑到两路的跨模态特征表示，loss函数可写为：

其中，

是边缘阈值，

图像-文本生成特征学习

对于图像-文本的训练通道，目标是让底层的特征表示

生成与真实文本描述尽可能相似的文本描述。首先通过

编码图像，接下来使用

将底层的特征解码为文本描述。

训练时，首先使用一个word-level的交叉熵损失：

为了直接优化metrics，使用了最小化负期望奖赏来优化模型：

最终的损失函数为：

文本-图像生成对抗特征学习

对于文本-图像的训练通道，目标是让底层的特征表示

生成与真实图像尽可能相似的一副图像。在这里使用GAN来进行生成:训练判别器来从生成的样本（假图像，真描述）和样本（真图像，假描述）中辨别出真实的样本（真图像，真描述）。然后，使判别器

和生成器

进行如下的极大-极小训练：

其中判别器损失

和生成器损失

分别为：

考虑到数据的数量限制和

与噪声样本

之间的不平滑性，最终的损失可写为：

四、实验结果

本文设置了多种baseline进行比较，证实了提出的两种生成模型的有效性：

表1：在MSCOCO 1K-image测试集上的跨模态检索结果

表2：在MSCOCO 1K-image测试集上使用sentence-level metrics对检索的captions的质量进行评估。

与MSCOCO数据集上state-of-the-art方法的比较：

表3：在MSCOCO 数据集上和当前前沿的方法进行跨模态检索的比较结果。

可视化检索结果:

图5：跨模态检索的结果。

可视化word embedding：

图6：word embedding的可视化结果

五、总结

本文提出了一种新颖的特征表示来进行跨模态检索。创新性地将图像-文本生成模型和文本-图像生成模型引入到传统的跨模态表示中，使其不仅能学习到多模态数据的高层的抽象表示，还能学习到底层的表示。显著超越state-of-the-art方法的表现证实了该方法的有效性。

猜你喜欢

转载自blog.csdn.net/qq_33373858/article/details/81509585

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》

Cross-modal Retrieval

论文笔记：Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval

Unsupervised Generative Adversarial Cross-modal Hashing

跨模态搜索(cross-modal/media retrieval) 跨模态搜索(cross-modal/media retrieval)

【论文阅读】A Deep Look into Neural Ranking Models for Information Retrieval

论文笔记：Probabilistic Embeddings for Cross-Modal Retrieval

【论文阅读】Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval 多义性视觉-语义编码跨模态检索视频图像文本

Modal-adversarial Semantic Learning Network for Extendable Cross-modal Retrieval 阅读笔记

《Cross-Modal Retrieval in the Cooking Context__Learning Semantic Text-Image Embeddings》

跨模态检索Coupled CycleGAN: Unsupervised Hashing Network for Cross-Modal Retrieval

【论文阅读】Emphasizing Complementary Samples for Non-literal Cross-modal Retrieval 图文检索多模态

论文阅读：Adversarial Cross-Modal Retrieval对抗式跨模式检索

跨模态检索综述A Survey of Full-Cycle Cross-Modal Retrieval: From a Representation Learning Perspective

跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning

【论文阅读】Probabilistic Embeddings for Cross-Modal Retrieval CVPR 2021 --- 跨模态检索，概率嵌入，一对多，多对多匹配

Generative Models(生成模型)简介

X-GEAR:Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event Argument Extraction

【论文精读】Improving Simple Models with Confidence Profiles

跨模态检索论文阅读：Cross Modal Retrieval with Querybank Normalisation

Cross-Modal Prompt Tuning

Cross-media Retrieval

文献阅读 Improving Seismic Data Resolution with Deep Generative Networks

Semantic Image Inpainting with Deep Generative Models

Generative Models as a Data Source for Multiview Representation Learning

LOGAN：Membership Inference Attacks Against Generative Models

多模态任务之视听事件定位（AVEL）算法解读及源码——Cross-modal Background Suppression for Audio-Visual Event Localization

[文献阅读]—Improving the Lexical Ability of Pretrained Language Models for Unsupervised NMT

SDXL：Improving latent diffusion models for high-resolution image synthesis

跨模态/多模态 cross-modal

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)