跨模态检索综述

文献引用格式

欧卫华, 刘彬, 周永辉, et al. 跨模态检索研究综述[J]. 贵州师范大学学报(自然版), 2018(2).

论文摘要

跨模态检索是对一种模态的查询词,返回与之相关的其他不同模态检索结果的新型检索方法,是跨媒体检索的新兴技术。通过分析跨模态检索的实际需求,给出了跨模态检索问题的定义,综述了目前主流跨模态检索方法的核心思想,列举了常用数据集与评价方法,最后分析了跨模态检索存在的问题以及未来研究趋势。

跨模态检索定义

在这里插入图片描述在这里插入图片描述

研究现状

国内外研究团队和成果

  • 国外
    Rasiwasia[1] 在2010年提出将典型相关分析方法应用到文本和图像间的跨模态检索。
  • 国内
    • 北京大学彭宇新老师课题组
      采集并发布了XMedia数据集,并在半监督跨模态检索等方面做了深入研究。

    • 北京交通大学张磊[2] 博士和北京邮电大学花妍[3] 博士等分别在语义一致的跨模态关联学习方面做了深入研究。

    • 浙江大学金仲明[4] 博士和北京邮电大学冯方向[5] 博士分别在基于深度学习的跨模态检索研究中取得了很好的成果。

    • 西安光电精密机械所的李学龙老师课题组在跨模态哈希算法方面做出了突出的贡献。

    • 中国科学院王亮和赫然老师课题组

    • 南京大学李武军老师课题组

    • 浙江大学杨易老师课题组

    • 厦门大学纪嵘嵘老师课题组

    • 电子科技大学沈复明老师课题组等
      就跨模态检索数据集的采集、跨模态关联学习、高层语义建模、跨模态哈希学习等方面进行了广泛的研究。

跨模态检索主要方法

跨模态检索的主流方法大致可以分为四类:子空间的方法、深度学习的方法、哈希变换的方法和主题模型的方法。

子空间的方法

基本思想
利用不同模态样本对的成对共生信息学习投影矩阵,将不同模态的特征投影到一个共同潜在子空间,然后在该子空间中度量不同模态的相似性,从而实现跨模态检索。
文献

  • Li提出了跨模态的因子分析法[6],通过最小化变换域中不同模态样本对的距离,学习不同模态的投影子空间;
  • Rasiwasia等提出将典型相关分析(CCA)[1,7] 方法应用到文本与图像间的跨模态检索中,即将文本特征和视觉特征分别看作不同的特征空间,通过最大化投影向量的相关性,学习投影子空间;
  • Liang[8] 等提出了群组不变跨模态子空间学习方法。该方法在学习投影子空间的同时,学习不同模态间的群组共生关系,而不仅仅是样本对的共生信息;
  • 从多模态降维的角度,Mahadevan[9] 等提出在学习低维嵌入的同时保持不同模态内的局部几何结构,有效提高了嵌入的稳定性。上述方法都是无监督的跨模态子空间学习方法;
  • 在有类标信息的条件下,Sharma[10] 等将无监督CCA推广到广义多视角判别分析,使得同类样本在潜在子空间投影尽量接近而非同类样本的投影尽量分离;
  • Kan[11] 提出了多视角判别分析,该方法不区分模态,直接在投影空间中计算类内和类间散度矩阵。
    为了学习判别性特征,Wang[12] 等提出了同时利用低秩和稀疏约束学习相关判别式特征,提高潜在子空间的判别性。
  • Zhang[13] 等在稀疏表示框架下,提出了结构稀疏正则化的监督关联字典学习方法,有效地提高了字典判别性。因不同模态的底层特征之间存在的关联度较低,模态间的关联性更多在于高层语义。
  • Gong[14] 等将高层语义特征作为一个单独模态,综合考虑文本、图像和语义3个模态,通过最大化两两之间的相关性学习到共享潜在子空间。研究证实,高层语义特征能极大地提高检索准确率。
  • 利用类似的思想,Ranjan[15]等利用多类标信息建立不同模态之间的语义关系,提出了一种多类标典型相关分析方法。此方法不需要不同模态间样本的明确对应关系,而是通过多类标建立不同模态间的语义关系来刻画不同模态间的对应关系。
  • 为了建模更高层次的语义关系,Jia[16] 等提出了基于马尔科夫随机场的主题模型,学习建立不同模态的语义关系.

优劣
这些方法在跨模态检索中取得了较好的效果,但一个共同的不足就是没有考虑各模态内的数据局部结构和模态间的结构匹配。事实上,与一个模态中的邻域内样本对应的另一个模态内的样本也应该具有相邻关系,反之亦然。另外子空间方法学习到的都是线性映射,无法有效的建模不同模态的高阶相关性。

基于深度学习的跨模态检索方法

基本思想
利用深度学习的特征抽取能力,在底层提取不同模态的有效表示,在高层建立不同模态的语义关联。
两个阶段
首先,对不同模态学习单独的表示,然后利用高层网络最大化不同模态表示的相关性。
文献

  • Ngia[17] 等提出了基于深度网络的跨模态学习方法。该模型考虑了多模态融合学习、跨模态学习和共享表示学习,通过视频、语音识别证实了方法的有效性。

  • 考虑到跨模态数据的关联重点在不同模态的语义相关性,Srivastava[18] 等提出了深度玻尔兹曼机。该方法先对不同模态分别学习底层表示,然后利用高层语义将不同模态表示融合来建立不同模态间的关联。

  • Andrew[19] 等提出了深度典型相关分析,通过多层深度网络学习复杂的非线性投影,最大化投影后的共同表示的相关性。

  • Feng[20] 等提出基于跨模态对应自编码器的深度学习模型。该模型通过最小化单模态自编码器的重构误差和不同模态表示层的相关性误差之和,从而将单模态表示学习和模态间的相关性学习集成到一个框架下。

  • 上述方法为无监督学习方法,为了学习更加判别性的表示,Wang[21] 等提出了监督的多模态深度神经网络。该网络由处理图像的卷积网络和处理文本的语言神经网络构成,通过五层的神经网络将不同模态映射到共同的语义空间,然后在语义空间进行不同模态的相似性度量。

  • 在仅仅给出模态的场景类标的前提下,Castrejon[22] 等提出了正则化跨模态深度学习网络,旨在模态差异很大的情况下学习不同模态的共同表示。

  • 综合考虑语义信息,Li[23] 等利用多类标监督信息学习共同的语义空间实现跨模态检索。具体地,对单个模态,该方法使用深度网络学习对应的特征,而将不同模态的共同语义向量作为不同模态相关性的优化目标,实现不同模态的语义关联。

  • Wang[24] 等利用主题特征表示文档,同时考虑模态内和模态间,通过正则化深度网络来建立不同模态的语义相关性。

  • 基于标签信息,Wei[25] 等则提出了深度语义匹配方法。

优劣
相比如前面的子空间方法,深度学习方法取得了更好的检索结果,这部分得益于大量的训练样本、超级的计算能力和深度模型的丰富表示能力。然而上述方法主要关注的还是底层特征学习和高层网络相关性,而对不同模态内的数据局部结构和模态间语义类结构关联缺乏关注和深入研究。

过渡

  • Li[26] 提出了结构保持的深度网络,该方法采用测度学习的思想,约束同模态内的邻域样本潜在表示距离小于不同邻域内的样本潜在表示距离,有效提高了检索精度。这证实了对模态内局部结构研究的重要性,同时也启发我们应该对模态内结构和模态间结构进行深入研究。子空间方法和深度学习方法都是基于实值表示的跨模态检索,这对大规模数据集来说是非常耗时的,且需要大量的存储空间。哈希变换则是解决此问题的方法之一。

基于哈希变换的跨模态方法

基本思想
利用不同模态的样本对信息,学习不同模态的哈希变换,将不同模态特征映射到一个汉明(Hamming)二值空间,然后在汉明空间实现快速的跨模态检索。哈希映射学习的基本依据是相似样本的哈希编码是相似的
文献

  • Kumar[27] 等将传统的单模态谱哈希进行推广,提出了跨模态的哈希变换法。该方法最小化相似样本的汉明距离,同时最大化不相似样本的汉明距离。
  • 为了学习紧凑的哈希编码,Ding[28] 等假设不同模态的同一个样本对映射到同一哈希编码,提出了基于集合矩阵分解的哈希算法。
  • Wang[29] 等通过哈希正交约限制变换空间,提出了正交深度神经哈希算法,增加了哈希编码的紧凑性。
  • 考虑模态的一致性,Song[30] 提出中间模态哈希变换,该方法同时考虑了模态内和模态间的一致性。
  • 在字典学习框架下,wu[31] 等提出了稀疏多模态哈希算法,该方法通过超图表达模态内和模态间的相似关系,然后联合学习不同模态的字典。

上述方法属于无监督的,没有考虑模态间的语义。事实上,跨模态数据具有底层特征异构、高层语义相关的特点。

  • 鉴于此,Lin [32] 提出了基于语义概率分布保持的跨模态哈希算法,该方法将语义类标转换为语义概率分布,然后在汉明空间中保持该语义分布,以此建立不同模态的语义关联。
  • Zhou[33] 等提出了潜语义稀疏哈希变换算法。该方法用稀疏编码学习图像的显著语义特征,用矩阵分解学习文本的潜在语义特征,然后将二者映射到一个联合语义空间。
  • Zhang[34] 等提出了语义相关性最大化的监督多模态哈希算法。该方法利用样本类标得到语义相似性矩阵,然后在汉明空间重构该矩阵得到哈希变换。
  • 考虑到类标信息,Yu[35] 等提出了判别式联合字典哈希函数学习算法,该方法利用类标信息学习联合判别式语义字典,不但保持模态内的相似性和模态间的相关性,同时字典具有语义判别性。
  • 基于相似样本哈希编码相似,而不相似样本哈希编码分离的原则,Hu[36] 等提出了迭代多模态哈希算法,该方法同时考虑模态内的相似性和模态间的相关性。
  • 结合深度学习,Wang[37] 等提出了基于堆叠式自动编码器的深度神经网络。该方法,首先对每个模态都学习训练一个堆叠式自动编码器以挖掘模态内的语义相关性;然后固定一个模态,调整另外一个模态对应的堆叠编码器参数,以此来学习不同模态间的相关性。
  • Cao[38] 等提出了相关自动编码器。

上述方法是基于两阶段的思路,Jiang[39] 等提出了一个端对端的学习框架,即将特征学习和哈希编码学习统一到同一个框架下,从而增强特征学习和哈希编码学习的一致性。

优劣
哈希类检索算法具有存储空间小、检索速度快等特点。存在的主要问题是二值化的过程中有精度损失,实值到二值化的过程中原有结构被破坏,没有充分考虑模态内的数据结构和模态间的结构匹配关联,优化计算复杂等。

主题模型法

基本思想
主题模型法基本思想是将跨模态数据的底层特征映射到一个“隐性语义空间”。与上述方法不同,基于主题模型的方法通过生成式模型来发掘跨模态数据中隐含主题空间,学习得到的”主题”具有较强的可解释性。
文献

  • Blei[40] 首先将隐狄里克雷模型推广到跨模态检索,通过将主题看作共同的潜变量来关联不同的模态。
  • 文献[41] 提出了主题回归的多模态隐狄里克雷主题模型,该方法是对每个模态分别学习一个潜在主题模型,然后在不同模态间运用回归的方法建模不同模态间的关系。
  • Zhen[42] 利用类标信息,进一步推广了此方法。
  • Jia[43] 则提出多模态文本随机场,该方法在文档层定义马尔科夫随机场,这样更有利于建模文本之间的相似性。
  • Liao[44] 提出了非参数贝叶斯监督主题模型,该方法能有效学习模态内和模态间的主题相关性结构。
  • Wang[45] 提出了主题增强模型,通过建立联合跨模态概率图模型来挖掘不同模态间的语义一致性,从而实现跨模态检索。主题模型法的主要优势在于直接对语义进行建模,能较好地刻画不用模态的语义关联,不足的是没有综合考虑不同模态的结构。

跨模态检索数据集

Wikipedia[46] 数据集

Wikipedia数据集采集于wikipedia,是跨模态检索研究使用最多的一个数据集。该数据集包含2866个图影文本数据对,共10个不同的语义类。显然该数据集存在语义类少,模态类型有限,只包括图像文本两种模态等不足。下载链接如下:http://www.svcl.ucsd.edu/projects/crossmodal/.

NUS-WIDE[47] 数据集

该数据集由新加坡国立大学媒体研究实验室通过网络爬虫从Flickr采集得到,主要包括图像及与之对应的图像标签,共包括269,648幅图像。去掉无意义的标签,共有5108个独立标签,平均每幅图包括大约6个标签。该数据集数据量有了大幅增加,但仍局限两种模态。下载链接如下:
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm.

XMedia数据集

数据集由北京大学多媒体计算实验室通过Wikipedia、Flickr、YouTube等来源采集。共包括20个语义类,每一类分别包含250段文本、250幅图像、25段视频、50段语音、25个3D模型五种不同模态,是目前跨模态检索领域数据量最大,模态最多的一个数据集。下载链接如下:
http://www.icst.pku.edu.cn/mipl/XMedia.

评价方法

平均精度均值(mean average precision,MAP)是评价跨模态检索方法的主要指标,它是平均精度(average precision,AP)的平均值,AP计算如下:
A P = 1 R R r 1 P ( γ ) δ ( γ ) A P = 1 R r 1 R P ( γ ) δ ( γ ) A P = 1 R r 1 R P ( γ ) δ ( γ ) AP=1R∑Rr≡1P(γ)δ(γ)AP=1R∑r≡1RP(γ)δ(γ) AP = \frac1{R}\sum^R_{r\equiv1}P(\gamma)\delta(\gamma) δ(r)=0

参考文献

[1]RASIWASIA N,COSTA PEREIRA J,LANCKRIET R,eta1.A new approach to cross—modal multimedia retrieval[C].in International conference on Multimedia,ACM.Florence,Italy,2010:251-260
[2]张磊.跨媒体语义共享子空间学习理论与方法研究[D./OL].北京:北京交通大学,2015.http:/kns.cnki.net/kns/brief/default—result.aspx
[3]花妍.具有语义一致性的跨模态关联学习与信息检索[D/OL].北京:北京邮电大学,2015.http:/kns.cnki.net/kns/brief/default—result.aspx
[4]金仲明.基于哈希算法的海量多媒体数据检索研究[D/OL].杭州:浙江大学,2015:27.107.http:/kns.cnki.net/kns/brief/default—result.aspx
[5]冯方向.基于深度学习的跨模态检索研究[D/OL].北京:北京邮电大学,2015.http:/kns.cnki.net/kns/brief/default—result.aspx
[6]Li D,DIMITROVA N,LI M,et a1.Multimedia content processing through cross-modal association[C].in International Conference on Multimedia.ACM,Toronto,Cana—da,2003:604-611
[7]HOTELLING H.Relations between two sets of variates[J].Biometrika,1936(28):321—377
[8]LIANG J,HE R,SUN z,et a1.Group-invariant cross-modal subspace learning[C].In Processding of IJCAI,New York,USA,2016:1739—1745
[9]MAHADEVAN V,WONG C W,PEREIRA J C,et a1.Maximum Covariance Unfolding - Manifold Learning for Bimodal Data[C].Advances in Neural Information Proeessing Systems.Granada,Spain,201 1:918-926
[10]SHARMA A,KUMAR A,DAUME H,et a1.Generalized muhi-view analysis:A discriminative latent space[C].in Computer Visionand Pattern Recognition.IEEE,RhodeIsland,USA,2012:2160.2167
[11]KAN M,SHAN S,ZHANG H,et a1.Multi—view discriminant analysis[C].European Conference on Computer Vision.Sydney,Australia,Springer Berlin Heidelberg,2012:808—821
[12]WANG K,HE R,WANG W,et a1.Learning coupled feature spaces for CROSS-modal matching[C].Proceedingsof the IEEE International Conference on Computer Vi—sion.Sydney,Australia,2013:2088-2095
[13]ZHUANG Y T,WANG Y F,WU F,et a1.Supervised coupled dictionary learning with group structures for multi-modal retrieval[C].in AAAI Conference on Artificial Intelligence,Washington,USA,2013:1070-1076
[14]GONG Y,KE Q,ISARD M,et a1.A multi-view embedding space for modeling internet images, tags, and their semantics[J].International Journal of Computer Vision,2014,106(2):210—233
[15]RANJAN V,RASIWASIA N,JAWAHAR C V.Multi-Label Cross-modal Retrieval[C].in International Conferenceon Computer Vision S/antiago,Chile,2015:4094-4102
[16]JIA Y,SALZMANN M,DARRELL,T.Learning cross—modality similarity for muhinomial data [C].In Interna.tional Conference onComputer Vision,Barcelona,Spain,20l 1:2407-2414
[17]NGIAM J,KHOSLA A,KIM M,et a1.Multimodal deeplearning[C].in International Conference on MachineLearning,Washington,USA,201 1:689-696
[18]SRIVASTAVA N,SALAKHUTDINOV R R.Multimodallearning with deep bohzmann machines[C].in Advancesin Neural InformationProcessing Systems,Lake Tahoe,Spain,2012:2222-2230
[19]ANDREW V,ARORA R,BILMES J,et a1.Deep canon.ical correlation analysis f C].in International Conferenceon Machine Learning,Atlanta,USA,2013:1247—1255
[20]FENG F,WANG X,LI R.Cross-modal retrieval withcorrespondence auto.encoder『C].in International Con.ference on Muhimedia.ACM,Orlando,FL,USA,2014:7.16
[21]WANG C,YANG H,MEINEL C.Deep semantic map—ping for cross modal retrieval[C].in International Con.ference on Tools with Artificial Intelligence,Vietri sulMare,Italy,2015:234—241
[22]CASTREJON L,AYTAR Y,VONDRICK C,et a1.Learning aligned cross·modal representations from weakly a—ligned data[C].Computer Vision and Pattern Recogni.tion,LasVegas,USA,2016:2940·2949
[23]u z,LU W,BAO E,et a1.Learning a semantic space bydeep network for cross.media retrieval『C].in Interna.tional Conference on Distributed Multimedia Systems,Vancouver Canada,2015:199-203
[24]WANG C,YANG H,MEINEL C.Deep semantic map.ping for cross medal retrieval[c].in In’’'ternational Con.ference on Tools with ArtificialIntelligence,Vietri sulMare laaly,2015:234-241
[25]WEI Yunchao.Cross.modal retrieval with cnn visual fea.tures:A new baseline[J].IEEE transactions on cyber.netics,2017,47(2):449-460
[26]WANG L,LI Y,LAzEBNIK S.Learning deep structure—preserving image·text embeddings[C].in the IEEEConference onComputer Vision and Pattern Recognition.Las Vegas,USA,2016:5005-5013
[27]KUMAR S,uDuPA R.Learning hash functions forCroSS-view similarity search[C].proceedings internation—al joint conference on artificial intelligence.Barcelona,Spain,2011,22(1):13印
[28]DING G,GUO Y,ZHOU J,et a1.Collective matrix fac.torization hashing for multi-modal data[C].in ComputerVision and Pattern Recognition.,Washington,USA,2014:2083.2090
[29]WANG D,CUI P,OU M,ZHU W,et a1.Learning com.pact hash codes for multi-medal representations using orthogonal deep structure[J].IEEE Transactions on Multi.media,2015,17(9):1404—1416
[30]SONG J,YANG Y,YANG Y,et a1.Inter-media hashingforlarge—scale retrieval from heterogeneous data sources[C]Proceedings of the 2013 ACM SIGMOD InternationalConference on Management of Data.New York,USA,2013:785-796
[31]wu F,Yu Z,YANG Y,et a1.Sparse multi.modal has—hing[J].IEEE Transactions on Multimedia,2014,16(2):427-439
[32]LIN Z,DING G,HAN J,et a1.Cross·view retrieval viaprobability-based semantics·preserving hashing[J].IEEE Transactions on Cybernetics,2016,DOI:10.1 109/TCYB.2016.2608906
[33]ZHOU J,DING G,GUO Y.Latent semantic sparse has—hing for CroSS-modal similarity search[C].in Conferenceon Research&Development in Information Retrieval.Queensland,Australia,July 06-11,2014:415-424
[34]ZHANG D,LI WJ.Large—scale supervised multi—modalhashing with semantic correlation maximization[c].inAAAI Conference on Artificial Intelligence,Quebec,Canada,July 27—31.2014:2177-2183
[35]Yu z,WU F,YANG Y,et a1.Discriminative coupleddictionary hashing for fast cross-media retrieval[c].inProceedings of the 37th international ACM SIGIR confer- ence on Research&development in information retrieval.Queensland,Australia,2014:395—404
[36]HU Y,JIN Z,REN H,CAI D,et a1.Iterative multi.view hashing for CroSS media indexing[C].in Intema—tional Conference on Muhimedia ACM.Orlando。FL.USA,2014:527-536
[37]WANG W,YANG X,ZHANG D,et a1.Effective multi—modal retrieval based on stacked auto.encoders f C 1.jnInternational Conference on Very Large Data Bases,Han—gzhou China,2014:649-660
[38]CAO Y,LONG M,WANG J,et a1.Correlation auto.en.coder hashing for supervised CroSS—modal search[C].inInternational Conference on Multimedia Retrieval,NewYork,USA,2016:197.204
[39]JIANGQ,LI W.Deep cross-modal hashing,available[J].http:/arxiv.org/abs/1602
[40]BLEI D M,JORDAN M I.Modeling annotated data[C].international ACM SIGIR conference on Research and de.velopment in information retrieval.Toronto,Canada,2003:127-134
[41]PUTFHIVIDHY D,ATHAS H T,NAGARAIAN S S.Topic regression multi—modal latent dirichlet allocation forimage annotation[C]IEEE Conference on Computer Vi·sion and Pattern Recognition,San Francisco,2010:3408-3415
[42]ZHENG Y,ZHANG Y J,LAROCHELLE H.Topic mod—cling of muhimodal data:an autoregressive approach[C].in IEEE Conference on Computer Vision and Pat.tern Recognition,Columbus,Ohio,2014:1370—1377
[43]JIA Y,SALZMANN M,DARRELL T.Learning crossmodality similarity for muhinomial data[C].IEEE International Conference on Computer Vision,Barcelona,Spain,201 1:2407-2414
[44]HAO R,ZHU J,QIN Z.Nonparametrie bayesian up—stream supervised multi—modal topic models[C].Proceedings of the international conference on web searchand data mining.New York,USA,2014:493-502
[45]WANG Y,wu F,SONG J,et a1.Multi-modal mutualtopic reinforce modeling for cross-media retrieval[C].inProceedings of the 22nd international conference on MUl—timedia.ACM,Orlando,F10rida,USA,2014:307-316
[46]RASIWASIA N,COSTA PEREIRA J,COVIELLO E,eta1.A newapproac to CFOSS—modal multimedia retrieval[C].in ACM international conference on Multimedia,Florence,Italy,2010:251-260
[47]CHUA T S,TANG J,HONG R,et a1.Nuswide:a re.al—world webimage database from national university ofsingapore[C].in ACM International Conference on Image and Video Retrieval,Santorini Island,Greece,2009:1-9.

资源下载

30+篇跨媒体中文论文下载地址

原创文章 101 获赞 9 访问量 8373

猜你喜欢

转载自blog.csdn.net/weixin_44523062/article/details/106034935