Cross-media Retrieval

Reference：

An Overview of Cross-media Retrieval: Concepts,Methodologies, Benchmarks and Challenges

（关于跨模态检索的概念、方法、主要挑战和开放性问题，包括数据集和实验结果的基准）

主要挑战：media gap

不同模态的表示特征不一致并且位于不同的特征空间中，主要挑战是度量它们之间的相似性。

当前的主流方法：common space learning methods

在共同空间中计算不同模态之间的相似性。同时，提出了跨模态相似性度量方法，通过分析已知数据关系直接计算跨模态相似度，而无需具体的共同空间。

大多数现有方法仅用于检索两种媒体类型（主要是图像和文本），但跨模态检索强调媒体类型的多样性。

共同空间学习and跨模态相似度度量

一、Definition of Cross-media Retrieval

两种模态类型： $X$ X $Y$ Y

训练数据集：

n为训练集实例数量

测试数据集：

n为训练集实例数量

语义标签：

目标：计算跨模态的相似性

无监督方法：所有训练数据未标记

半监督方法：仅标记训练数据的一部分子集

全监督方法：所有训练数据标记

跨模态检索的代表性工作：

U：无监督方法 S：半监督方法 F：完全监督方法，R：涉及相关性反馈的方法

跨模态检索：

输入：image（sentence）+dataset 　　　　　输出：sentence（image）rank list

跨模态检索是跨文本，图像，视频，音频和3D模型等所有媒体类型的检索，其主要挑战和焦点是“media gap”问题。

二、Common Space Learning

跨模态检索的主流方法是Common Space Learning，因为表达相同语义的数据有潜在的关联，因此它们在共同高级语义空间（common high-level semantic space）中相近。

学习一个共同空间，并将不同媒体类型的数据投影到该空间以进行相似度测量。

七类现有方法：

(A) traditional statistical correlation analysis methods （传统的统计相关分析方法）

On basic model：

(B) DNN-based methods（以深度神经网络为基本模型）

On correlation modeling：

(D)metric learning methods (将跨模态相关性视为一组相似/不相似的约束)

(E) learning to rank methods（跨模态排名信息作为优化目标）

On property of common space：

(F) dictionary learning methods

（字典学习方法生成字典，学习的公共空间用于跨模态数据的稀疏系数）

(G) cross-media hashing methods（学习一个a common Hamming space 来加速检索）

A. Traditional Statistical Correlation Analysis Methods

通过优化统计值来学习线性投影矩阵

常用的基线方法：CCA DCCA：DNN与CCA结合，CCA的非线性扩展。

缺陷：1.仅通过线性投影很难完全模拟现实世界中跨模态数据的复杂相关性

2.大多数方法只能模拟两种媒体类型，但跨模态检索通常涉及两种以上的媒体类型

B. DNN-based Methods(深度神经网络)

跨模态检索中的深层体系结构主要包括两种方式。

1.第一种方式可以看作一个网络，不同媒体类型的输入通过相同的共享层

2.第二种方式包括在代码层中通过相关性约束耦合的子网

可考虑方法：GAN

C. Cross-media Graph Regularization Methods

图正则化可以描述跨模态数据的各种相关性，例如语义相关性，模态内相似性和模态间相似性。

缺陷：图构建过程通常导致高时间和空间复杂性

D. Metric Learning Methods

E. Learning to Rank Methods

F. Dictionary Learning Methods

G. Cross-media Hashing Methods

猜你喜欢