Cross-media Retrieval

Reference:

An Overview of Cross-media Retrieval: Concepts,Methodologies, Benchmarks and Challenges

(关于跨模态检索的概念、方法、主要挑战和开放性问题,包括数据集和实验结果的基准)

主要挑战:media gap

不同模态的表示特征不一致并且位于不同的特征空间中,主要挑战是度量它们之间的相似性。

当前的主流方法:common space learning methods

在共同空间中计算不同模态之间的相似性。同时,提出了跨模态相似性度量方法,通过分析已知数据关系直接计算跨模态相似度,而无需具体的共同空间。

大多数现有方法仅用于检索两种媒体类型(主要是图像和文本),但跨模态检索强调媒体类型的多样性。

共同空间学习and跨模态相似度度量

一、Definition of Cross-media Retrieval

两种模态类型: XX YY

训练数据集:

n为训练集实例数量

测试数据集:

n为训练集实例数量

语义标签:

目标:计算跨模态的相似性

无监督方法:所有训练数据未标记

半监督方法:仅标记训练数据的一部分子集

全监督方法:所有训练数据标记

跨模态检索的代表性工作:

U:无监督方法 S:半监督方法 F:完全监督方法,R:涉及相关性反馈的方法

跨模态检索:

输入:image(sentence)+dataset      输出:sentence(image)rank list

跨模态检索是跨文本,图像,视频,音频和3D模型等所有媒体类型的检索,其主要挑战和焦点是“media gap”问题。

二、Common Space Learning

跨模态检索的主流方法是Common Space Learning,因为表达相同语义的数据有潜在的关联,因此它们在共同高级语义空间(common high-level semantic space)中相近。

学习一个共同空间,并将不同媒体类型的数据投影到该空间以进行相似度测量。

七类现有方法:

(A) traditional statistical correlation analysis methods (传统的统计相关分析方法)

On basic model:

(B) DNN-based methods(以深度神经网络为基本模型)

On correlation modeling:

(C) cross-media graph regularization methods(采用图模型来表示复杂的跨模态相关性)

(D)metric learning methods (将跨模态相关性视为一组相似/不相似的约束)

(E) learning to rank methods(跨模态排名信息作为优化目标)

On property of common space:

(F) dictionary learning methods

(字典学习方法生成字典,学习的公共空间用于跨模态数据的稀疏系数)

(G) cross-media hashing methods(学习一个a common Hamming space 来加速检索)

A. Traditional Statistical Correlation Analysis Methods

通过优化统计值来学习线性投影矩阵

常用的基线方法:CCA DCCA:DNN与CCA结合,CCA的非线性扩展。

缺陷:1.仅通过线性投影很难完全模拟现实世界中跨模态数据的复杂相关性

2.大多数方法只能模拟两种媒体类型,但跨模态检索通常涉及两种以上的媒体类型

B. DNN-based Methods(深度神经网络)

跨模态检索中的深层体系结构主要包括两种方式。

1.第一种方式可以看作一个网络,不同媒体类型的输入通过相同的共享层

2.第二种方式包括在代码层中通过相关性约束耦合的子网

可考虑方法:GAN

C. Cross-media Graph Regularization Methods

图正则化可以描述跨模态数据的各种相关性,例如语义相关性,模态内相似性和模态间相似性。

缺陷:图构建过程通常导致高时间和空间复杂性

D. Metric Learning Methods

E. Learning to Rank Methods

F. Dictionary Learning Methods

G. Cross-media Hashing Methods

猜你喜欢

转载自blog.csdn.net/qq_33373858/article/details/81509599
今日推荐