【论文阅读】mmSampler: Efficient Frame Sampler for Multimodal Video Retrieval【MLSys 2022】


Paper: MLSys 2022
Author: Samsung AI Centre, Toronto, Canada


前置知识

基于自然语言的视频定位任务:目前在研究领域内有多种叫法,包括但不限于以下几种:Natural Language Video Localization (NLVL),Query-based Video Localization,Natural Language-based Video Retrieval,Temporal Action Localization,Video Moment Localization。
基于自然语言的视频检索任务

摘要(Abstract)

这篇文章研究的基于自然语言的视频检索任务,具体要做的就是给定一个自然语言搜索queries,要求找到与语言描述相关的视频。最近的SOTA方法将video和query分别做embedding,然后将这两个embedding映射到一个联合潜空间内计算二者的相似度。为了学习视频的表示,现有的解决方法有两种,一种是使用所有的帧,另一种是使用均匀采样从视频中采样出一个帧子集。前者计算量太大,后者可能会将无信息帧注入最终表示从而引入噪声。为此,这篇工作提出了一个基于学习的采样器——mmsampler,自适应的提取出重要的帧来表征视频。mmsampler可以在不影响检索性能的情况下大大降低视频表示的计算开销。这篇学习了一个轻量级的策略网络来决定是进一步处理还是丢弃一个帧。

引言(Introduction)

对视觉和语言的联合理解是机器学习社区的关键研究课题之一。One task under this umbrella is 语言到视频检索,它从给定候选视频池中返回与文本query相关的视频。移动手机中的user-generated videos的快速增长是一个全球化的现象,这使得视频的有效检索成为一个重要的实际问题。视频和自然语言理解的一般方法涉及到在联合嵌入空间内学习videos和queries的向量表征。在学习的空间内,语义相关的内容距离会更近(比如余弦相似度距离),这篇工作要解决的一个关键问题是如何将视觉帧有效地嵌入到视频表示中。如图一所示。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/DUDUDUTU/article/details/127234185
今日推荐