目标跟踪｜七大数据集｜整理

大家好，这里是【来一块葱花饼】，这次带来了目标跟踪的论文分享，与你分享~

之前做了一段时间的目标跟踪算法（以单目标跟踪SOT为主）的研究，学习了四十多篇顶会论文。所以，我新成立了专栏目标跟踪(SOT)｜顶会论文｜学习笔记,论文笔记与大家分享，方便大家快速了解目标跟踪的进展，掌握不同算法思想。欢迎大家讨论，在评论区写出自己的想法～

本文是目标跟踪｜七大数据集｜整理，与大家分享。具体论文分析笔记，见专栏中的其他文章，欢迎关注。

具体论文分析笔记，见专栏中的其他文章，欢迎大家关注，链接如下：
目标跟踪|近三年|45篇顶会论文整理
 目标跟踪｜七大数据集｜整理
 目标跟踪｜论文笔记分享｜ICCV-6篇
 目标跟踪｜论文笔记分享｜ICCV-2篇
 目标跟踪｜论文笔记分享｜ECCV-6篇
 目标跟踪｜论文笔记分享｜CVPR-12篇
 目标跟踪｜论文笔记分享｜CVPR-10篇(1)
目标跟踪｜论文笔记分享｜CVPR-10篇(2)

文章目录

- VOT系列
- GOT10K
- OTB100
- LaSOT
- UAV123
- TrackingNet
- TNL2K

VOT系列

视觉跟踪领域国际顶级赛事 Visual-Object-Tracking Challenge (VOT) 从2013年开始就一直举办，每年都会推出一批新的benchmark。VOT公共数据集是用于评估单个对象跟踪器的最新数据集之一。

评价指标EAO；期望平均覆盖率。A是Accuracy用来评价tracker的跟踪目标的准确度，数值越大，准确度越高。

评价指标EFO：衡量跟踪器的速度

排名机制（rank-based）：tracker在不同属性序列上的表现安装accuracy和robustness分别进行排名，再进行平均，得到tracker的综合排名，根据这个综合排名的数字大小对tracker进行排序得出最后排名。

GOT10K

一个大型跟踪数据库，它提供了前所未有的广泛覆盖范围内的常见移动物体，称为 GOT-10k。具体来说，GOT-10k 建立在 WordNet 结构的骨干之上，它填充了超过 560 类移动对象和 87 种运动模式中的大部分，比最近的类似规模对应物的幅度更广

OTB100

OTB100是用于视觉目标跟踪的最广泛的基准测试之一，由100个注释良好的视频序列组成。

有一个称为一次性评估(OPE)的规定，并根据两个基本指标评估跟踪器:精度评分和成功图的曲线下面积(AUC)。

precision plot：追踪算法估计的目标位置（bounding box）的中心点与人工标注（ground-truth）的目标的中心点，这两者的距离小于给定阈值的视频帧的百分比。

Success Plot：真实边界框与跟踪器生成的边界框之间的 IOU

OPE：用ground-truth中目标的位置初始化第一帧，然后运行跟踪算法得到平均精度和成功率。

LaSOT

是一个long-term tracking ,这个数据集有1400个视频序列，每个视频平均有2512帧,最短的视频也有1000帧，最长的包含11397帧。它考虑了视觉外观和自然语言的联系，不仅标注了bbox而且增加了丰富的自然语言描述,旨在鼓励对于跟踪，结合视觉和自然语言特征的探索。

使用精度、标准化精度和成功率在 OPE 中报告评估结果。

UAV123

UAV123主要由91个无人机视频组成，其中有数个视频序列较长，拆分成三四个较短的片段，使用多次，所以有123个groundtruth

有一个称为一次性评估(OPE)的规定，并根据两个基本指标评估跟踪器:精度评分和成功图的曲线下面积(AUC)。

TrackingNet

TrackingNet是针对目标跟踪的第一个大规模的数据集。这个数据集采用一种方法将现有的大规模的目标检测的数据集利用到目标跟踪上（YouTubeBB稀疏标注）。

success S: 真实边界框与跟踪器生成的边界框之间的 IOU。跟踪器使用 AUC（曲线下面积）0~1 进行排名

precision P :测量为中心 Cgt 和 Ctr 之间的像素距离。跟踪器使用此指标进行排名，常规阈值为 20 个像素。

Pnorm: 我们对真实边界框大小的精度进行归一化，我们使用曲线下面积（AUC）0~0.5 对跟踪算法进行排名

TNL2K

自然语言跟踪( TNL2K) （CVPR2021）是为通过自然语言规范评估跟踪而构建的。收集一个共 2k 的视频序列（包含 1,244,340 帧，663 个单词），并分别拆分了 1300/700 个用于训练/测试。并为每个视频密集标注一个英文句子和对应的目标对象的边界框。