Video Moment Retrieval 数据集

几个常用的数据集

  • CharadesSTA

    CharadesSTA是在Charades上进行了时间标注,共一万余条视频,来自157种动作种类,在部分视频中,需要做结构化的复杂查询,即每个查询包含至少两个子句,并且查询片段时间跨度小于视频长度的一半。训练集共13898条,测试集4233条,其中复合句1378条。

数据集论文:

TALL: Temporal Activity Localization via Language Query
https://arxiv.org/pdf/1705.02101.pdf

数据集特征地址:https://prior.allenai.org/projects/charades
数据集标注地址:https://github.com/jiyanggao/TALL

视频样例:
https://youtu.be/x9AhZLDkbyc

标注样例:
在这里插入图片描述

  • TACoS

数据集种包含了基本烹饪的高分辨率视频记录,视频长度为1-23分钟(平均4.5分钟)。描述语料库中包含17,334个动作描述(符号),由146,771个单词(令牌)组成,其中75,210个是实词实例(例如:名词、动词和形容词)。动词的词汇包含28292个动词标记,实现435个词素。

数据集官网: https://www.coli.uni-saarland.de/projects/smile/page.php?id=tacos
数据集论文: https://aclanthology.org/Q13-1003.pdf

数据集样例:
在这里插入图片描述
在这里插入图片描述

  • DiDeMo

包括超过10,000个25-30秒长的个人视频和超过40,000个文本描述。

官方网站:https://github.com/LisaAnne/LocalizingMoments

在这里插入图片描述

在这里插入图片描述

Guess you like

Origin blog.csdn.net/AAliuxiaolei/article/details/119674262