常用的公共数据集（二）

十一、一般视频

AlignMNIST - MNIST手写数据集的人工扩展版本。（en Hauberg）
视听事件（AVE）数据集 - AVE数据集包含4143个YouTube视频，涵盖28个事件类别和AVE数据集中的视频，在时间上标有视听事件边界。（田亚鹏，景石，李伯辰，段志尧，徐晨亮）
多模态语义自我中心视频（DoMSEV）的数据集 - 标记80小时的多模式语义自我中心视频（DoMSEV）数据集，涵盖广泛的活动，场景，记录器，照明和天气条件。（UFMG，Michel Silva，华盛顿Ramos，Jo ?? o Ferreira，Felipe Chamone，Mario Campos，Erickson R. Nascimento）
DAVIS：2016年视频对象分割数据集 - 视频对象分割的基准数据集和评估方法（F. Perazzi，J。Pont-Tuset，B。McWilliams，L。Van Gool，M。Gross和A. Sorkine-Hornung）
DAVIS：视频对象分割数据集2017 - 2017年DAVIS视频对象分割挑战（J. Pont-Tuset，F。Perazzi，S。Caelles，P。Arbelaez，A。Sorkine-Hornung和L. Van Gool）
GoPro-Gyro数据集 - 自我中心视频（林雪平计算机视觉实验室）
LIVE的图像和视频质量评估 - 用于开发图像质量算法（德克萨斯大学奥斯汀分校）
大型YouTube视频数据集 - 从YouTube视频中抓取的156,823个视频（2,907,447个关键帧）（Yi Yang）
电影可记忆性数据集 - 令人难忘的电影剪辑和详细记忆的基本事实，从100部好莱坞式电影（Cohendet，Yadati，Duong和Demarty）中提取的660部短片摘录
MovieQA - 每台机器通过回答有关它们的问题来理解故事。15000多选QAs，400多部电影。（M。Tapaswi，Y。Zhu，R。Stiefelhagen，A。Torralba，R。Urtasun和S. Fidler）
多光谱可见近红外视频序列 - 带注释的多光谱视频，可见+近红外（LE2I，Universit de Bourgogne）
时间数据集中的时刻 - 时间数据集中的时刻1M使用操作类型注释的3秒视频，这是用于在视频中识别和理解动作的最大数据集。（蒙福特，奥利瓦等人）
近似重复的视频检索数据集 - 该数据库包含156,823个视频序列（2,907,447个关键帧），这些视频序列在2010年7月至2010年9月期间从YouTube中抓取。（Jingkuan Song，Yi Yang，Zi Huang，Heng Tao Shen，Richang Hong）
PHD2：个性化突出显示检测数据集 - PHD2是具有个性化突出显示信息的数据集，其允许在进行预测时训练使用关于用户的信息的突出显示检测模型。（Ana Garcia del Molino，Michael Gygli）
Sports-1M - 用于体育视频分类的数据集，包含487个课程和1.2M视频。（Andrej Karpathy和George Toderici以及Sanketh Shetty和Thomas Leung以及Rahul Sukthankar和Li Fei-Fei。）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）
用于研究欧几里得升级的视频序列基于对相机的最小假设（Kenton McHenry）
视频堆叠数据集 - 用于智能手机上手持视频堆叠的虚拟三脚架（Erik Ringaby等）
YFCC100M视频 - YFCC100M视频子集的基准测试，包括视频，视频内容功能和最先进的视频内容引擎的API。（陆江）
YFCC100M：多媒体研究的新数据 - 这个公开提供的1亿张照片和视频的策划数据集对所有人来说都是免费且合法的。（Bart Thomee，雅虎实验室和旧金山的Flickr等）
YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）
YouTube-8M - 用于野外视频分类的数据集，包含8M视频和4800个类别的预先提取的帧级功能。（Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，Paul Natsev，George Toderici，Balakrishnan Varadarajan， Sudheendra Vijayanarasimhan）
YUP ++ /动态场景数据集 - 来自60个不同场景的20个室外场景类，每个都有60个彩色视频（每个5秒，480个像素宽，24-30个fps）。一半视频使用静态相机，一半使用移动相机（Feichtenhofer，Pinz，Wildes）

十二、手，手抓，手动和手势数据库

11k手 --1,1,076手图像（1600 x 1200像素）的190个主题，年龄介于18 - 75之间，具有元数据（身份，性别，年龄，肤色，手性，手，配件等）。（Mahmoud Afifi）
200亿-Jester - 密集标记的视频剪辑，显示人类在笔记本电脑摄像头或网络摄像头前执行预定义的手势（Twenty Billion Neurons GmbH）
单深度图像三维关节手部姿态估计（Tang，Chang，Tejani，Kim，Yu）
人体操纵动作数据集 - 25个物体和6个动作的RGB-D（Alessandro Pieropan）
手势检测数据集（Javier Molina等）
A-STAR注释手深图像数据集及其性能评估 - 深度数据和数据手套数据，30个志愿者的29幅图像，中文数字计数和美国手语（徐和程）
博斯普鲁斯海峡手部几何数据库和手部静脉数据库（博阿齐奇大学）
DemCare数据集 - DemCare数据集由来自不同传感器的一组不同数据集合组成，可用于从可穿戴/深度和静态IP摄像机识别人类活动，用于Alzheimmer疾病检测的语音识别以及用于步态分析和异常检测的生理数据。（K. Avgerinakis，A.Karakostas，S.Vrochidis，I。Kompatsiaris）
EgoGesture数据集 - 第一人称视图手势，包含83个课程，50个科目，6个场景，24161个RGB-D视频样本（Zhang，Cao，Cheng，Lu）
EgoHands - 一个拥有超过15,000个像素级分段指针的大型数据集，记录自人们以自我为中心的相机相互作用。（Sven Bambach）
EgoYouTubeHands数据集 - 以自我为中心的手部分割数据集由来自YouTube视频的1290个带注释的帧组成，这些帧是在无约束的真实世界设置中记录的。视频的环境，参与者数量和行动都有所不同。此数据集可用于研究无约束设置中的手部分割问题。（Aisha Urooj，A。Borji）
FORTH手部跟踪库（FORTH）
一般手：一般手部检测和姿势挑战 - 22个具有不同手势，活动和观点的序列（加州大学欧文分校）
掌握UNderstanding（GUN-71）数据集 - 使用71种细粒度抓取的分类法注释的12,000个对象操纵场景的第一人称RGB-D图像。（Rogez，Supancic和Ramanan）
手势和海洋剪影（Euripides GM Petrakis）
HandNet：由手部姿势的RealSense RGBD传感器捕获的手的铰接指针 214971的注释深度图像的注释深度图像。注释：每个像素类，6D指尖姿势，热图。火车：202198，测试：10000，验证：2773。记录在Technion的GIP Lab。
HandOverFace数据集 - 手部分割数据集由来自网络的300个带注释的框架组成，用于研究手部遮挡面问题。（Aisha Urooj，A。Borji）
IDIAP手姿势/手势数据集（Sebastien Marcel）
Kinect和Leap运动手势识别数据集 - 数据集包含使用Leap Motion和Kinect设备获取的1400种不同手势（Giulio Marin，Fabio Dominio，Pietro Zanuttigh）
Kinect和Leap运动手势识别数据集 - 数据集包含使用Creative Senz3D相机采集的几种不同的静态手势。（A.Moono，L。Minto，P。Zanuttigh）
LISA CVRR-HANDS 3D - 由8名受试者作为汽车司机和乘客进行的19次手势（Ohn-Bar和Trivedi）
用于评估3D关节手部运动跟踪的MPI Dexter 1数据集 - Dexter 1：7个具有挑战性，慢速和快速手部运动的序列，RGB +深度（Sridhar，Oulasvirta，Theobalt）
MSR实时和强大的手部深度跟踪 - （Qian，Sun，Wei，Tang，Sun）
移动和网络摄像头手部图像数据库 - MOHI和WEHI - 200人，每个30张图像（Ahmad Hassanat）
NTU-Microsoft Kinect HandGesture数据集 - 这是手势的RGB-D数据集，10个主题x 10个手势x 10个变体。（周仁，袁俊松，孟晶晶，张正友）
NUIG_Palm1 - 使用消费者设备进行掌纹识别实验，在无约束条件下获取的掌纹图像数据库。（Adrian-Stefan Ungureanu）
NYU Hand Pose Dataset - 8252测试集和72757个训练集帧捕获的RGBD数据，具有真实的手势，3个视图（Tompson，Stein，Lecun，Perlin）
PRAXIS手势数据集 - 来自29个手势的RGB-D上身数据，64名志愿者，多次重复，许多志愿者有一些认知障碍（Farhood Negin，INRIA）
渲染手柄数据集 - 用于2D / 3D手势估计的合成数据集，具有RGB，深度，分割掩模和每手21个关键点（Christian Zimmermann和Thomas Brox）
Sahand动态手势数据库 - 该数据库包含11个动态手势，旨在向计算机传达鼠标和触摸屏的功能。（Behnam Maleki，Hossein Ebrahimnezhad）
谢菲尔德手势数据库 - 2160 RGBD手势序列，6个科目，10个手势，3个姿势，3个背景，2个照明（凌少）
UT Grasp数据集 - 4个主题掌握各种各样的掌握（Cai，Kitani，Sato）
耶鲁人类掌握数据集 - 27个小时的视频，带有来自两个管家和两个机械师（Bullock，Feix，Dollar）的标记抓取，对象和任务数据

十三、图像，视频和形状数据库检索

2D到3D可变形草图 - 可变形2D轮廓的集合，与同一类的可变形3D网格在点对应中; 提供了大约10个对象类，包括人类和动物。（拉纳，罗多拉）
杂波中的3D可变形对象 - 用于3D可变形物体杂波的数据集，具有跨越数百个场景并跨越多个类别（人类，动物）的逐点地面真实对应。（Cosmo，Rodola，Masci，Torsello，Bronstein）
ANN_SIFT1M - 由128D SIFT描述符编码的1M Flickr图像（Jegou等）
布朗大学25/99/216形状数据库（Ben Kimia）
CIFAR-10 - 来自10个类的60K 32x32图像，带有512D GIST描述符（Alex Krizhevsky）
CLEF-IP 2011专利图像评估
DeepFashion - 大型时装数据库（刘紫薇，罗平，石秋，王小刚，王小鸥）
EMODB - picsearch图像搜索引擎中图像的缩略图以及picsearch情感关键字（Reiner Lenz等）
ETU10 Silhouette数据集 - 数据集包含720个10个对象的轮廓，每个对象有72个视图。（M.Akimaliev和MF Demirci）
2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）
Fashion-MNIST - 类似MNIST的时尚产品数据库。（韩晓，Zalando Research）
鱼形数据库 - 它是一个鱼形数据库，具有100个2D点集形状。（阿德里安·彼得）
Flickr 30K - 图像，动作和字幕（Peter Young等）
Flickr15k - 基于草图的图像检索（SBIR）基准 - 包含33个对象类别的330个草图和15,024张照片的数据集，常用于评估基于草图的图像检索（SBIR）算法的基准数据集。（Hu和Collomosse，CVIU 2013）
动手动作（HIC）IJCV数据集 - 使用/ o 1对象跟踪1手或2手的数据（图像，模型，动作）。包括*单视图RGB-D序列（1个主题，> 18个带注释的序列，4个对象，完整的RGB图像）和*多视图RGB序列（1个主题，HD，8个视图，8个序列 - 1个带注释，2个对象）。（Dimitrios Tzionas，Luca Ballan，Abhilash Srikantha，Pablo Aponte，Marc Pollefeys，Juergen Gall）
IAPR TC-12图像基准（Michael Grubinger）
IAPR-TC12分段和注释图像基准（SAIAPR TC-12）:( Hugo Jair Escalante）
ImageCLEF 2010概念检测和注释任务（Stefanie Nowak）
ImageCLEF 2011概念检测和注释任务 - Flickr照片中的多标签分类挑战
METU商标数据集 METU数据集由属于全球公司的900多个真实徽标组成。（Usta Bilgi Sistemleri AS和Grup Ofis Marka专利AS）
McGill 3D Shape Benchmark（Siddiqi，Zhang，Macrini，Shokoufandeh，Bouix，Dickinson）
MPI MANO和SMPL + H数据集 - 统计模型MANO（仅手动）和SMPL + H（身体+指针）的模型，4D扫描和注册。对于MANO，有31个受试者进行~2k静态3D扫描，最多可进行51次姿势。对于SMPL + H，我们包括11个受试者的39个4D序列。（Javier Romero，Dimitrios Tzionas和Michael J Black）
多视图立体评估 - 每个数据集都注册了一个通过激光扫描过程获得的“地面实况”3D模型（Steve Seitz等人）
NIST SHREC - 2014年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）
NIST SHREC - 2013年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）
NIST SHREC 2010 - 非刚性3D模型的形状检索竞赛（美国国家标准与技术研究院）
NIST TREC视频检索评估数据库（美国国家标准与技术研究院）
NUS-WIDE - 带有81个概念标签的269K Flickr图像，包含为500D BoVW描述符（Chau等）
普林斯顿形状基准（普林斯顿形状检索和分析组）
PairedFrames - 评估3D姿势跟踪误差 - 合成和真实数据集，用于测试3D姿态跟踪/细化，姿势初始化接近/远离/来自最小值。建立难度越来越大的测试帧对，分别测量姿态估计误差，而不采用完整的跟踪流水线。（Dimitrios Tzionas，Juergen Gall）
昆士兰跨媒体数据集 - 用于“跨媒体”检索的数百万图像和文本文档（Yi Yang）
从RGB-D视频重建铰接式装配模型（RecArt-D） - 在操纵过程中变形的物体的数据集。包括4个RGB-D序列（RGB图像完整），每个对象的可变形跟踪结果，以及每个对象的3D网格和Ground-Truth 3D骨架。（Dimitrios Tzionas，Juergen Gall）
从手对象交互重建（R-HOI） - 一只手与未知对象交互的数据集。包括4个RGB-D序列，总共4个对象，RGB图像完整。包括对象的跟踪3D运动和Ground-Truth网格。（Dimitrios Tzionas，Juergen Gall）
重访牛津和巴黎（RevisitOP） - 着名的地标/建筑物检索数据集的改进且更具挑战性的版本（固定错误，新注释和评估协议，新查询图像）以及1M牵引器图像。（F. Radenovic，A。Iscen，G。Tolias，Y。Avrithis，O。Chum）
SHREC'16可变形部分形状匹配 - 大约400个3D可变形形状的集合，经历强烈的偏态变换，包括点对点地面真实对应。（Cosmo，Rodola，Bronstein，Torsello）
SHREC 2016 - 基于3D草图的3D形状检索 - 使用手绘3D草图查询数据集在通用3D模型数据集上评估不同基于3D草图的3D模型检索算法的性能的数据（Bo Li）
SHREC'17可变形部分形状检索 - 大约4000个可变形3D形状的集合，经历严重的偏态变换，形式为不规则缺失部分和距离数据; 提供了真实课程信息。（拉纳，罗多拉）
SHREC防水模型轨道（SHREC 2007） - 400个防水3D模型（Daniela Giorgi）
SHREC部分模型轨道（SHREC 2007） - 400个防水3D DB模型和30个减少的防水查询模型（Daniela Giorgi）
SBU Captions Dataset - 从Flickr（Ordonez，Kulkarni和Berg）收集的100万张图像的图像标题
草绘我的鞋子 - 在细粒度的设置中基于草图的对象检索。将草图与特定的鞋子和椅子相匹配。（Qian Yu，QMUL，T。Hospedales Edinburgh / QMUL）。
TOSCA 3D形状数据库（Bronstein，Bronstein，Kimmel）
完全看起来 - 评估预测基于人类的图像相似性的基准（Amir Rosenfeld，Markus D. Solbach，John Tsotsos）
UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）
YouTube-8M数据集 - 用于视频理解研究的大型多样化标签视频数据集。（谷歌公司）

十四、对象数据库

各种物体和场景的2.5D / 3D数据集（Ajmal Mian）
3D对象识别立体数据集此数据集由9个对象和80个测试图像组成。（Akash Kushal和Jean Ponce）
3D摄影数据集我们实验室捕获的十个多视图数据集（Yasutaka Furukawa和Jean Ponce）
3D打印RGB-D对象数据集 - 带有groundtruth CAD模型和摄像机轨迹的5个对象，使用各种质量的RGB-D传感器记录（Siemens＆TUM）
3DNet数据集 - 3DNet数据集是用于对象类识别和点云数据的6DOF姿态估计的免费资源。（John Folkesson等人）
对齐各种对象的2.5D / 3D数据集 - 从单个深度视图进行对象重建的合成和真实数据集。（Bo Yang，Stefano Rosa，Andrew Markham，Niki Trigoni，Hongkai Wen）
阿姆斯特丹物体图像库（ALOI）：1K物体的100K视图（阿姆斯特丹大学/智能感官信息系统）
具有属性2 - 37322（自由许可）的动物50个动物类的图像，具有85个每类二进制属性。（Christoph H. Lampert，IST奥地利）
ASU Office-Home数据集 - 用于域适应的日常对象的对象识别数据集（Venkateswara，Eusebio，Chakraborty，Panchanathan）
B3DO：伯克利三维物体数据集 - 家庭物体检测（Janoch等）
Bristol Egocentric Object Interactions数据集 - 与同步凝视相关的自我中心对象（Dima Damen）
CORE图像数据集 - 帮助学习更详细的模型，并探索对象识别中的跨类别泛化。（Ali Farhadi，Ian Endres，Derek Hoiem和David A. Forsyth）
CTU颜色和深度图像数据集的传播服装 - 带有注释角落的传播服装的图像。（Wagner，L.，Krejov D.和Smutn V.（布拉格捷克技术大学））
Caltech 101（现256）类别物体识别数据库（李飞飞，Marco Andreeto，Marc'Aurelio Ranzato）
卡塔尼亚鱼类物种识别 - 15种鱼类，约20,000个样本训练图像和其他测试图像（Concetto Spampinato）
COCO-Stuff数据集 - 标有“东西”和“东西”的164K图像（Caesar，Uijlings，Ferrari）
哥伦比亚COIL-100 3D对象多视图（哥伦比亚大学）
更深入，更广泛和更艺术的领域泛化 - 领域泛化任务数据集。（Da Li，QMUL）
密集采样的对象视图：2个对象的2500个视图，例如用于基于视图的识别和建模（Gabriele Peters，Universiteit Dortmund）
爱丁堡厨房用具数据库 - 8种原始和二进制图像的20类厨房用具，培训未来的家庭援助机器人（D. Fullerton，A。Goel，RB Fisher）
EDUB-Obj - 用于对象定位和分割的以自我为中心的数据集。（MarcBolaños和Petia Radeva。）
椭圆查找数据集（Dilip K. Prasad等）
FIN-Benthic - 这是一个用于底栖大型无脊椎动物自动细粒度分类的数据集。共有来自64个类别的15074张图片。每个类别的图像数量从577到7不等。（Jenni Raitoharju，Ekaterina Riabchenko，Iftikhar Ahmad，Alexandros Iosifidis，Moncef Gabbouj，Serkan Kiranyaz，Ville Tirronen，Johanna Arje）
GERMS - 我们用于GERMS数据收集的对象集由136个不同微生物的填充玩具组成。玩具分为7个较小的类别，通过玩具微生物的语义划分形成。将对象划分为较小类别的动机是提供具有不同难度的基准。（Malmir M，Sikka K，Forster D，Movellan JR，Cottrell G.）
GDXray：用于X射线测试和计算机视觉的X射线图像 - GDXray包括五组图像：铸件，焊接*，行李，性质和设置。（智利天主教大学Domingo Mery）
GMU Kitchens Dataset - 来自9个不同厨房的BigBird数据集的11种常见家用产品的实例级注释（George Mason University）
抓住野外 - 自然日常生活对象的以自我为中心的视频数据集。7个厨房中的16个物体。（Benois-Pineau，Larrousse，de Rugy）
GRAZ-02数据库（自行车，汽车，人）（A。Pinz）
GREYC 3D - GREYC 3D彩色网格数据库是一组15个真实物体，具有使用3D彩色激光扫描仪采集的不同颜色，几何形状和纹理。（Anass Nouri，Christophe Charrier，Olivier Lezoray）
GTSDB：德国交通标志检测基准（Ruhr-Universitat Bochum）
ICubWorld - iCubWorld数据集是通过iCub类人机器人的摄像机记录获取的图像集合，同时观察日常物体。（Giulia Pasquale，Carlo Ciliberto，Giorgio Metta，Lorenzo Natale，Francesca Odone和Lorenzo Rosasco。）
工业3D物体检测数据集（MVTec ITODD） - 用于3D物体检测和姿态估计的3500个标记场景中的28个物体的深度和灰度值数据，重点关注工业设置和应用（MVTec Software GmbH，Munich）
Instagram Food Dataset - 一个包含800,000个食物图像和相关元数据的数据库，在6周内发布到Instagram上。支持食物类型识别和社交网络分析。（T. Hospedales。爱丁堡/ QMUL）
Keypoint-5数据集 - 五种家具及其2D关键点标签的数据集（Jiajun Wu，Tianfan Xue，Joseph Lim，Yuandong Tian，Josh Tenenbaum，Antonio Torralba，Bill Freeman）
KTH-3D-TOTAL - RGB-D数据，桌面上的对象带注释。20个书桌，每天3次，超过19天。（John Folkesson等人）
LISA红绿灯数据集 - 在各种照明条件下的6种轻型课程（Jensen，Philipsen，Mogelmose，Moeslund和Trivedi）
LISA交通标志数据集 - 在6610帧（Mogelmose，Trivedi和Moeslund）上有47种美国标志类型和7855个注释的视频
Linkoping 3D物体姿态估算数据库（Fredrik Viksten和Per-Erik Forssen）
Linkoping交通标志数据集 - 20K图像中的3488个交通标志（Larsson和Felsberg）
Longterm Labeled - 此数据集包含来自长期数据集（上面的长期数据集）的观察的子集。（John Folkesson等人）
主要产品检测数据集 - 包含时尚产品及其图像的文本元数据，包含主要产品的边界框（文本引用的边框）。（A. Rubio，L。Yu，E。Simo-Serra和F. Moreno-Noguer）
MCIndoor20000 - 来自三种不同室内物体类别的20,000个数字图像：门，楼梯和医院标志。（Bashiri，LaRose，Peissig和Tafti）
Mexculture142 - 墨西哥文化遗产和眼动追踪凝视（Montoya Obeso，Benois-Pineau，Garcia-Vazquez，Ramirez Acosta）
麻省理工学院CBCL汽车数据（生物和计算学习中心）
麻省理工学院CBCL StreetScenes挑战框架：（Stan Bileschi）
Microsoft COCO - 语境中的常见对象（Tsung-Yi Lin等）
Microsoft Object Class Recognition图像数据库（Antonio Criminisi，Pushmeet Kohli，Tom Minka，Carsten Rother，Toby Sharp，Jamie Shotton，John Winn）
Microsoft显着对象数据库（用边框标注）（刘，孙铮，唐，沉）
移动Labled - 此数据集扩展了长期数据集，在KTH的同一办公环境中有更多位置。（John Folkesson等人）
NABirds数据集 - 在北美常见的400种鸟类的70,000张注释照片（Grant Van Horn）
NEC玩具动物对象识别或分类数据库（Hossein Mobahi）
NORB 50玩具图像数据库（NYU）
NTU-VOI：NTU视频对象实例数据集 - 具有对象实例的帧级边界框注释的视频剪辑，用于评估大型视频中的对象实例搜索和本地化。（Jingjing Meng，et al。）
物体姿态估算数据库 - 该数据库包含16个物体，每个物体沿两个旋转轴以5度角增量采样（F. Viksten等）
物体识别数据库该数据库包含八个物体的建模镜头和包含多个物体的51个杂乱的测试镜头。（Fred Rothganger，Svetlana Lazebnik，Cordelia Schmid和Jean Ponce。）
打开图像数据集V4 15,440,132个盒子，600个类别，30,113,078个图像级别标签，19,794个类别。（法拉利，杜里格，戈麦斯）
开放式博物馆识别挑战（开放式MIC）开放式MIC包含在几个博物馆的10个不同展览空间（绘画，雕塑，珠宝等）中捕获的展品照片以及适应领域和少数学习问题的协议。（P. Koniusz，Y。Tas，H。Zhang，M。Harandi，F。Porikli，R。Zhang）
Osnabrück合成可伸缩立方体数据集 - 从12个不同观点捕获的830000个不同立方体用于ANN训练（Schöning，Behrens，Faion，Kheiri，Heidemann和Krumnack）
普林斯顿模型网 - 127,915个CAD模型，662个对象类别，10个带注释方向的类别（吴，宋，科斯拉，俞，张，唐，萧）
PacMan数据集 - 可抓取的炊具和陶器的RGB和3D合成和真实数据（Jeremy Wyatt）
PACS（Photo Art Cartoon Sketch） - 用于测试域概括的对象类别识别数据集数据集：在一个域中训练对象图像的分类器能够识别另一个域中的对象吗？（Da Li QMUL，T。Hospedales。爱丁堡/ QMUL）
PASCAL 2007 Challange图像数据库（摩托车，汽车，奶牛）（PASCAL Consortium）
PASCAL 2008 Challange图像数据库（PASCAL联盟）
PASCAL 2009 Challange图像数据库（PASCAL联盟）
PASCAL 2010 Challange图像数据库（PASCAL联盟）
PASCAL 2011 Challange图像数据库（PASCAL联盟）
PASCAL 2012 Challange图像数据库类别分类，检测和分割，以及静止图像动作分类（PASCAL Consortium）
PASCAL图像数据库（摩托车，汽车，奶牛）（PASCAL Consortium）
PASCAL零件数据集 - PASCAL VOC，带有对象语义部分的分段注释（Alan Yuille）
PASCAL-Context数据集 - 另外400多个类别的注释（Alan Yuille）
PASCAL 3D /超越PASCAL：野外3D物体检测的基准 - 12类，3000多张图像，每张都带有3D注释（Yu Xiang，Roozbeh Mottaghi，Silvio Savarese）
物理101数据集 - 五种不同场景下101个物体的视频数据集（Jiajun Wu，Joseph Lim，Hongyi Zhang，Josh Tenenbaum，Bill Freeman）
植物幼苗数据集 - 12种杂草种的高分辨率图像。（奥胡斯大学）
雨滴检测 - 使用具有场景上下文隔离的组合形状和显着性描述符改进雨滴检测 - 评估数据集（Breckon，Toby P.，Webster，Dereck D.）
ReferIt数据集（IAPRTC-12和MS-COCO） - 来自IAPRTC-12和MS-COCO数据集（Kazemzadeh，Matten，Ordonez和Berg）的图像中对象的引用表达式
ShapeNet - 55种常见对象类别的3D模型，具有约51K独特的3D模型。此外12K型号超过270个类别。（普林斯顿，斯坦福和TTIC）
SHORT-100数据集 - 在典型购物清单中找到的100类产品。它旨在对用于识别手持对象的算法性能进行基准测试，这些手持对象来自使用手持或可穿戴相机获取的快照或视频。（Jose Rivera-Rubio，Saad Idrees，Anil A. Bharath）
SOR3D - SOR3D数据集包含超过20k个人 - 对象交互实例，14个对象类型和13个对象可供性。（pyridon Thermos）
斯坦福犬数据集 - 斯坦福犬数据集包含来自世界各地的120种犬种的图像。该数据集是使用ImageNet中的图像和注释构建的，用于细粒度图像分类的任务。（Aditya Khosla，Nityananda Jayadevaprakash，Bangpeng Yao，Li Fei-fei，斯坦福大学）
SVHN：Street View House Numbers数据集 - 就像MNIST一样，但是标记数据的数量超过了一个数量级（超过600,000个数字图像），并且来自一个更加困难，未解决的现实世界问题（识别自然场景图像中的数字和数字）。（Netzer，Wang，Coates，Bissacco，Wu，Ng）
瑞典叶数据集 - 这些图像包含15个树类的叶子（Oskar JO S？derkvist）
T-LESS - 用于6D姿势估计无纹理对象的RGB-D数据集。（Tomas Hodan，Pavel Haluza，Stepan Obdrzalek，Jiri Matas，Manolis Lourakis，Xenophon Zabulis）
淘宝商品数据集 - TCD包含800个商品图片（礼服，牛仔裤，T恤，鞋子和帽子），用于从淘宝网站上的商店进行图像显着对象检测。（Keze Wang，Keyang Shi，Liang Lin，Chenglong Li）
Laval 6 DOF对象跟踪数据集 - 具有11个对象的297个RGB-D序列的数据集，用于6个DOF对象跟踪。（Mathieu Garon，Denis Laurendeau，Jean-Francois Lalonde）
ToolArtec点云 - 来自Artec EVA扫描仪的50个厨房工具3D扫描（帘布层）。另请参阅ToolKinect - 使用Kinect 2和ToolWeb进行 13次扫描- 116点合成家用工具云，具有5个任务的质量和可供性基础。（Paulo Abelha）
TUW对象实例识别数据集 - 从各种视点观察到的杂乱室内场景的对象实例及其6DoF姿势的注释，表示为Kinect RGB-D点云（Thomas，A。Aldoma，M。Zillich，M。Vincze）
TUW数据集 - 来自TUW的几个RGB-D地面实况和注释数据集。（John Folkesson等人）
UAH交通标志数据集（阿罗约等）
UIUC汽车图像数据库（UIUC）
UIUC 3D对象类别数据集（S. Savarese和L. Fei-Fei）
VAIS - VAIS同时包含从码头获得的船舶的未注册的热量和可见图像，它是为了促进自主船舶开发而创建的。（Mabel Zhang，Jean Choi，Michael Wolf，Kostas Daniilidis，Christopher Kanan）
Venezia 3D杂波识别与分割（Emanuele Rodola）
视觉属性数据集可视属性注释，用于超过500个对象类（动画和无生命），它们都在ImageNet中表示。每个对象类都使用基于636个属性的分类的视觉属性进行注释（例如，具有毛皮，由金属制成，是圆形的）。
Visual Hull数据设置视觉船体数据集的集合（Svetlana Lazebnik，Yasutaka Furukawa和Jean Ponce）
YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）

十五、人（静态和动态），人体姿势

3D铰接式车身 - 具有旋转和平移的铰接式车身的3D重建。单摄像头，变焦。每个场景都可能有一个铰接的身体移动。包括四种数据集。包括仅使用场景的四个图像的样本重建结果。（Jihun Park教授）
BUFF数据集 - 大约10K扫描衣服的人和下面人的估计身体形状。扫描包含纹理，因此很容易生成合成视频/图像。（Zhang，Pujades，Black和Pons-Moll）
动态Dyna - 超过40K 4D 60fps高分辨率扫描和模型的人非常准确地注册。扫描包含纹理，因此很容易生成合成视频/图像。（Pons-Moll，Romero，Mahmood和Black）
动态浮士德 - 超过40K 4D 60fps高分辨率扫描人员非常准确地注册。扫描包含纹理，因此很容易生成合成视频/图像。（Bogo，Romero，Pons-Moll和Black）
扩展的Chictopia数据集 - 14K图像具有附加处理注释（面部）和SMPL身体模型的Chictopia数据集适合图像。（Lassner，Pons-Moll和Gehler）
电影中标记的帧（FLIC） - 标有人体姿势的20928帧（Sapp，Taskar）
KIDS数据集 - 由30个高分辨率3D形状组成的集合，经历近乎等长和非等长的变形，具有点对点的地面实况以及从左到右的双边对称的基础事实。（Rodola，Rota Bulo，Windheuser，Vestner，Cremers）
Kinect2人体姿势数据集（K2HPD） - Kinect2人体姿势数据集（K2HPD）包括在具有挑战性的情况下具有各种人体姿势的约100K深度图像。（Keze Wang，Liang Lin，Shengfu Zhai，Dengke Dong）
利兹体育姿势数据集 - 2000年构成了大多数体育人士的注释图像（约翰逊，Everingham）
查看Person数据集 - 50,000个图像，带有精心设计的像素注释，带有19个语义人体部分标签和带有16个关键点的2D hposes。（龚，梁，张，沉，林）
通过RGB网络摄像头的人体模型床内姿势数据集 - 这种床内姿势数据集通过东北大学模拟医院室内的常规网络摄像头收集。（Shuangjun Liu和Sarah Ostadabbas，ACLab）
Mannequin IRS床内数据集 - 这种床内姿势数据集通过我们的红外选择（IRS）系统在东北大学的模拟医院室收集。（Shuangjun Liu和Sarah Ostadabbas，ACLab）
MoPoTS-3D - 基于单眼RGB方法的多人3D身体姿势基准，在室内和室外设置中有20个序列（MPI For Informatics）
MPI-INF-3DHP - 单人3D身体姿势数据集和评估基准，在广泛的活动范围内具有广泛的姿势覆盖范围，以及广泛的外观增强范围。多视图RGB帧可用于训练集，而单眼视图帧可用于测试集。（信息学MPI）
MPI MANO和SMPL + H数据集 - 统计模型MANO（仅手动）和SMPL + H（身体+指针）的模型，4D扫描和注册。对于MANO，有31个受试者进行~2k静态3D扫描，最多可进行51次姿势。对于SMPL + H，我们包括11个受试者的39个4D序列。（Javier Romero，Dimitrios Tzionas和Michael J Black）
MPII人体姿势数据集 - 25K图像，包含超过40,000人注释的身体关节，410人类活动{Andriluka，Pishchulin，Gehler，Schiele）
MPII人体姿势数据集 - MPII人体姿势数据集是用于评估关节人体姿势估计的事实上的标准基准。（Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，Bernt Schiele）
MuCo-3DHP - 从MPI-INF-3DHP数据集（MPI for Informatics）生成的具有3D姿势注释的合成多人RGB图像的大规模数据集
相册中的人物 - 社交媒体照片数据集，包含来自Flickr的图像，以及人头及其身份的手动注释。（张宁和Manohar Paluri以及Yaniv Taigman，Rob Fergus和Lubomir Bourdev）
人物快照数据集 - 24个主体在固定摄像机前旋转的单目视频。提供了分割和2D关节位置形式的注释。（Alldieck，Magnor，Xu，Theobalt，Pons-Moll）
个人照片集中的人物识别 - 我们引入了三个更难分割的评估和长期属性注释和每照片时间戳元数据。（哦，Seong Joon和Benenson，Rodrigo和Fritz，Mario和Schiele，Bernt）
指向'04 ICPR工作室头部姿势图像数据库
姿态估计 - 此数据集共有155,530个图像。这些图像是通过4次会议记录CIDIS成员获得的。总共获得10个视频，每个视频持续时间为4分钟。要求参与者携带不同的衣服，以使图像变得多样化。在此之后，视频的帧以每秒5帧的速率分离。所有这些图像都是从顶视图中捕获的。原始图像的分辨率为1280x720像素。（CIDIS）
SHREC'16拓扑KIDS - 由40个高分辨率和低分辨率3D形状组成的集合，除了强大的拓扑伪影，自触点和网格粘合外，还具有近点等长的变形，具有点对点的地面真实性。（拉纳，罗多拉）
SURREAL - 在形状，纹理，视点和姿势方面有很大差异的人们的60,000个合成视频。（Varol，Romero，Martin，Mahmood，Black，Laptev，Schmid）
TNT 15数据集 - 由四个佩戴在四肢的10个惯性传感器（IMU）同步的几个视频序列。（von Marcard，Pons-Moll和Rosenhahn）
UC-3D运动数据库 - 可用的数据类型包括高分辨率运动捕捉，采用Xsens和Microsoft Kinect RGB和深度图像的MVN Suit获得。（葡萄牙科英布拉系统与机器人研究所）
United People（UP）数据集 - 具有关键点和前景分割注释的~8,000个图像以及3D身体模型拟合。（Lassner，Romero，Kiefel，Bogo，Black，Gehler）
VGG人体姿势估计数据集，包括BBC Pose（20个带有重叠手语翻译的视频），扩展BBC姿势（72个额外的培训视频），短BBC姿势（5个带有手语签名者的视频）和ChaLearn Pose（23小时） Kinect数据显示27个人表演20个意大利手势）。（Charles，Everingham，Pfister，Magee，Hogg，Simonyan，Zisserman）
VRLF：视觉唇读可行性 - 用西班牙语录制的24个扬声器的视听语料库（Fernandez-Lopez，Martinez和Sukno）

十六、人员检测和跟踪数据库

3D KINECT性别步行数据库（L. Igual，A。Lapedriza，R。Borr＆agrave; s来自UB，CVC和UOC，西班牙）
AGORASET：人群视频分析数据集（Nicolas Courty等）
CASIA步态数据库（中国科学院）
具有跟踪和行为基础事实的CAVIAR项目视频序列（CAVIAR团队/爱丁堡大学 - EC项目IST-2001-37540）
CMU Panoptic Studio数据集 - 由500多个同步摄像机捕获的多人社交互动数据集，具有3D全身骨架和校准数据。（H. Joo，T。Simon，Y。Sheikh）
CUHK Crowd Dataset - 来自215个拥挤场景的474个视频片段（Shao，Loy和Wang）
CUHK01数据集：人员重新识别数据集，包含3,884个 972名行人图像（Rui Zhao等）
CUHK02数据集：人员重新识别具有五个摄像机视图设置的数据集。（Rui Zhao等）
CUHK03数据集：人员重新识别数据集，包含1,316名行人的13,164张图像（Rui Zhao等）
加州理工学院行人数据集（P. Dollar，C。Wojek，B。Schiele和P. Perona）
戴姆勒行人检测基准 21790图像与56492行人加空场景。（DM Gavrila等）
用于Fusion的数据集（颜色和红外线）在不同环境条件下从并行双摄像头设置捕获的彩色和红外系列图像。（Juan Serrano-Cuerda，Antonio Fernandez-Caballero，Maria T. Lopez）
驾驶员监控视频数据集（RobeSafe + Jesus Nuevo-Chiquero）
DukeMTMC：Duke多目标多镜头跟踪数据集 - 8个摄像头，85分钟，2米镜头，2000人视频（Ergys Ristani，Francesco Solera，Roger S. Zou，Rita Cucchiara，Carlo Tomasi）
爱丁堡头顶摄像机人跟踪数据集（Bob Fisher，Bashia Majecka，Gurkirt Singh，Rowland Sillito）
GVVPerfcapEva - 人体形状和性能捕获数据的存储库，包括全身骨骼，手部跟踪，体形，面部表现，交互（Christian Theobalt）
拥有27个人类属性的HAT数据库（Gaurav Sharma，Frederic Jurie）
Immediacy Dataset - 此数据集专为估计个人关系而设计。（肖楚等人）
INRIA穿着运动基准人体 -基准包含不同的主体，运动，和服装样式，允许定量地测量身体形状估计（金龙羊，让- Sbastien佛朗哥，弗兰克H = E9troy轮车的精度三维运动序列，和Stefanie Wuhrer）
INRIA人数据集（Navneet Dalal）
IU ShareView - IU ShareView数据集由九组同步（两个第一人称）视频组成，共有1,227个像素级地面真实分割图，共2,654个带注释的人物实例。（徐明泽，范晨佑，王雨辰，Michael S. Ryoo，David J. Crandall）
Izmir - 用于人体和汽车检测的全方位和全景图像数据集（带注释）（Yalin Bastanlar）
自动驾驶中的联合注意力（JAAD） - 数据集包括行人和汽车的实例，主要用于自动驾驶环境中的行为研究和检测。（Iuliia Kotseruba，Amir Rasouli和John K. Tsotsos）
JTL Stereo为机器人追踪数据集 - 11个不同的室内和室外场所，用于机器人跟踪人员在具有挑战性的情况下的任务（Chen，Sahdev，Tsotsos）
MAHNOB：MHI-Mimicry数据库 - 一个2人，多摄像头和麦克风数据库，用于研究人与人交互场景中的模仿。（Sun，Lichtenauer，Valstar，Nijholt和Pantic）
麻省理工学院CBCL行人数据（生物和计算学习中心）
MPI DYNA - 动态人体动态模型（Max Planck Tubingen）
MPI FAUST Dataset一个包含300个真实，高分辨率人体扫描的数据集，具有自动计算的地面实况对应关系（Max Planck Tubingen）
MPI JHMDB数据集 - 联合注释的人体运动数据库 - 21个动作，928个剪辑，33183帧（Jhuang，Gall，Zuffi，Schmid和Black）
MPI MOSH标记的运动和形状捕获。MOCAP数据，3D形状网格，3D高分辨率扫描。（Max Planck Tubingen）
MVHAUS-PI - 多视图人类交互识别数据集（Saeid等）
市场 -1501 数据集 - 32,668个带有1,501个身份的边界框，最多6个摄像头（梁正等）
摩德纳和雷焦艾米利亚第一人称头像运动视频（摩德纳大学和雷焦艾米利亚大学）
日常生活的多式联运活动 - 包括视频，音频，生理，睡眠，运动和插头传感器。（Alexia Briasouli）
多目标跟踪基准 - 具有基本事实的数据集的集合，以及性能排行表（ETHZ，U。Adelaide，TU Darmstadt）
多光谱可见近红外视频序列 - 带注释的多光谱视频，可见+近红外（LE2I，Universit de Bourgogne）
纽约大学多目标跟踪基准（Konrad Schindler等）
封闭的关节人体数据集 - 遮挡下的身体姿势提取和跟踪，总共有3个RGB-D序列（3500帧），具有一个，两个和三个用户，基于标记的地面实况数据。（Markos Sigalas，Maria Pateraki，Panos Trahanias）
OxUva - 一个大型长期跟踪数据集，由总共约14小时的366个长视频组成，具有单独的开发（公共注释）和测试集（隐藏注释），具有目标对象消失和连续属性。（Jack Valmadre，Luca Bertinetto，Joao F. Henriques，Ran Tao，Andrea Vedaldi，Arnold Smeulders，Philip Torr，Efstratios Gavves）
OU-ISIR步态数据库 - 六个基于视频的步态数据集，两个基于惯性传感器的步态数据集，以及一个步态相关的生物识别分数数据集。（Yasushi Makihara）
PARSE数据集附加数据 - 面部表情，注视方向和性别（Antol，Zitnick，Parikh）
PARSE数据集的铰接体 - 300张人类和马匹图像（Ramanan）
PathTrack数据集：大型MOT数据集 - PathTrack是720个序列中超过15,000个人轨迹的大规模多目标跟踪数据集。（Santiago Manen，Michael Gygli，戴登新，Luc Van Gool）
PDbm：人员检测基准库 - 现实序列，手动注释人检测基础事实和完整的评估框架（Garc ?? a-Mart ?? n，Mart ?? nez，Besc ?? s）
PDds：人员检测数据集 - 几个不同复杂程度的注释监控序列（Garc ?? a-Mart ?? n，Mart ?? nez，Besc ?? s）
PETS 2009 Crowd Challange数据集（Reading University和James Ferryman）
PETS Winter 2009研讨会数据（Reading University＆James Ferryman）
PETS：2015年跟踪和监督绩效评估（Reading University＆James Ferryman）
PETS：2015年跟踪和监督绩效评估（Reading University＆Luis Patino）
PETS 2016数据集 - 多摄像机（包括热像仪）在静止车辆和船周围的人类行为视频记录（Thomas Cane）
PIROPO - 带有透视和全向摄像头的室内人群，拥有超过100,000个带注释的框架（GTI-UPM，西班牙）
人物艺术 - 一个包含照片和艺术品标签的数据库（齐武和蔡洪平）
Photo-Art-50 - 一个包含照片和艺术品的50个对象类的数据库（Qi Wu和Hongping Cai）
基于像素的变化检测基准数据集（Goyette等）
岌岌可危的数据集 - 不寻常的人物检测数据集（黄）
RAiD - 室内 - 室外数据集重新识别：43人，4台摄像机，6920张图像（Abir Das等）
RPIfield - 包含带有时间戳的4108个人图像的人员重新识别数据集。（孟铮，Srikrishna Karanam，Richard J. Radke）
新加坡海事数据集 - 可见范围视频和红外视频。（Dilip K. Prasad）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
Shinpuhkan 2014 - 人物重新识别数据集，包含由16个摄像机捕获的24个人的22,000张图像。（Yasutomo Kawanishi等人）
斯坦福结构化组发现数据集 - 发现图像中的人群（W. Choi等）
TrackingNet - 用于在野外跟踪的大规模数据集：超过30k个用于训练的注释序列，500多个用于测试的评估序列，评估服务器和用于公平排名的排行榜。（Matthias Muller，Adel Bibi，Silvio Giancola，Salman Al-Subaihi和Bernard Ghanem）
瞬态生物识别指甲数据集V01（Igor Barros Barbosa）
Temple Color 128 - 颜色跟踪基准 - 编码视觉跟踪的颜色信息（P. Liang，E。Blasch，H。Ling）
来自音频，图像和深度（GAID）数据库的TUM Gait - 包含305个主题的跟踪RGB视频，跟踪深度视频和音频（Babaee，Hofmann，Geiger，Bachmann，Schuller，Rigoll）
TVPR（顶视图人员重新识别）数据集 - 在顶视图配置中使用RGB-D摄像机进行人员重新识别：室内23次，100人，8天（Liciotti，Paolanti，Frontoni，Mancini和Zingaretti）
加州大学洛杉矶分校空中事件数据集 - 航空视频中的人类活动，包括人物，物体，社会团体，活动和角色的注释（Shu，Xie，Rothrock，Todorovic和Zhu）
佛罗里达中部大学 - 人群数据集（Saad Ali）
佛罗里达中部大学 - 人群流分段数据集（Saad Ali）
VIPeR：观点不变行人识别 - 在不同光照条件下从任意视点拍摄的632个行人图像对。（Gray，Brennan和Tao）
视觉对象跟踪挑战数据集 - VOT数据集是在单目标短期视觉对象跟踪挑战中使用的完全注释的可视对象跟踪数据集的集合。（VOT委员会）
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，有13789个图像属于30个场景类别，57524个人类边界框，每个用14个二进制属性注释。（Li，Yining和Huang，Chen和Loy，Chen Change and唐小鸥）
WUds：轮椅使用者数据集 - 轮椅使用者检测数据，扩展人员检测，提供更通用的解决方案，以检测独立和辅助生活，医院，医疗中心和高级住宅等环境中的人（Mart ?? n-Nieto，Garc？？a-Mart ?? n，Mart ?? nez）
YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）

十七、遥感

用于屋顶分割的空中图像（AIRS） - 457平方公里的正射校正航空影像覆盖范围，超过220,000个建筑物用于屋顶分割。（王磊，陈琦）
巴西Cerrado-Savanna场景数据集 - 由RapidEye传感器拍摄的IR-RG场景的组成，用于巴西Cerrado-Savanna的植被分类。（K. Nogueira，JA dos Santos，T。Fornazari，TS Freire，LP Morellato，R。da S. Torres）
巴西咖啡场景数据集 - 由SPOT传感器拍摄的IR-RG场景的组成，用于识别巴西山区的咖啡作物。（OAB Penatti，K。Nogueira，JA dos Santos。）
建筑物检测基准 -14从IKONOS（1米）和QuickBird（60厘米）（Ali Ozgun Ok和Caglar Senaras）获得的图像
CBERS-2B，Landsat 5 TM，Geoeye，Ikonos-2 MS和ALOS-PALSAR - 使用光学图像进行土地覆盖分类（D.Osaku等人）
数据融合竞赛2015（Zeebruges） - 该数据集在Zeebruges市（比利时）的港口上提供RGB天线数据集（5cm）和激光雷达点云（65pts / m2）。它还提供了一个源自点云的DSM和七个10000 x 10000像素图块中五个的语义分割基础事实。评估服务器用于评估其他两个磁贴上的结果。（图像分析和数据融合技术委员会，IEEE地球科学，遥感学会）
2017年数据融合竞赛 - 该数据集为全球九个城市提供卫星（Landsat，Sentinel 2）和矢量GIS层（例如建筑物和道路足迹）。任务是根据不同分辨率和特征类型的数据，预测在100米预测网格中对气候模型有用的土地利用类别。5个城市带有标签，其他4个城市被隐藏起来，用于评估服务器上的评分。（图像分析和数据融合技术委员会，IEEE地球科学，遥感学会）
deepGlobe挑战 - 该数据集包括三个挑战，道路提取，建筑物检测和土地覆盖的语义分割。提供了来自Digital Globe（RGB，50 cm分辨率）的一系列卫星图像以及全球多个国家/地区的标签。结果在2018年CVPR的DeepGlobe研讨会上公布。（Facebook，Digital Globe）
DeepGlobe卫星图像了解挑战 - 卫星图像上三个深度学习任务的数据集和评估平台：道路提取，建筑物检测和土地类型分类。（Demir，Ilke和Koperski，Krzysztof和Lindenbaum，David和Pang，Guan和Huang，Jing和Basu，Saikat和Hughes，Forest和Tuia，Devis和Raskar，Ramesh）
FORTH多光谱成像（MSI）数据集 - 用于多光谱成像（MSI）的5个数据集，附有地面实况数据（Polykarpos Karamaoynas）
Furnas和Tiete - 沉积物产量分类（Pisani等）
ISPRS 2D语义标记 - 在德国波茨坦市（Franz Rottensteiner，Gunho Sohn，Markus Gerke，Jan D. Wegner）准备了地面采样距离为5cm的高度模型和真正的正射影像。
ISPRS 3D语义标记 - 九级机载激光扫描数据（Franz Rottensteiner，Gunho Sohn，Markus Gerke，Jan D. Wegner）
Inria航空影像标签数据集 - 美国和奥地利城市的9000平方公里彩色航空影像。（Emmanuel Maggiori，Yuliya Tarabalka，Guillaume Charpiat，Pierre Alliez。）
兰伯特的频谱图分析 - 从时间序列数据得到的无源声纳频谱图像，这些频谱图是从水下海洋记录中螺旋桨和发动机机械辐射的声能记录产生的。（托马斯兰伯特）
Linkoping Thermal InfraRed数据集 - LTIR数据集是用于评估短期单目标（STSO）跟踪的热红外数据集（林雪平大学）
MASATI：MAritime SATellite图像数据集 - MASATI是一个由光学航空图像组成的数据集，其中6212个样本是从Microsoft Bing Maps获得的。它们被标记并分为7类海洋场景：陆地，海岸，海洋，海岸船舶，海船，海洋与多船，海船详细。（阿利坎特大学）
MUUFL格尔夫波特高光谱和激光雷达数据集 - 在南密西西比海湾公园校园内共同登记的航空高光谱和激光雷达数据包含几个亚像素目标。（Gader，Zare，Close，Aitken，Tuell）
NWPU-RESISC45 - 用于遥感图像场景分类的大型基准数据集，包含由45个场景类别覆盖的31500个图像。（龚成，韩俊伟，陆小强）
RIT-18 - 用于语义分割的高分辨率多光谱数据集。（Ronald Kemker，Carl Salvaggio，Christopher Kanan）
语义无人机数据集 - 从地面5至30米处获得最低点（鸟瞰）视图的20个房屋。400x公共和200个私人高分辨率图像6000x4000px（24Mpx）。
UC Merced Land使用数据集 21级土地利用图像数据集，每类100幅图像，主要是城市，256x256分辨率，1英尺像素（Yang和Newsam）
UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）
苏黎世夏季数据集 - t用于城市场景的高分辨率卫星图像的语义分割，具有不完整的基本事实（Michele Volpi和Vitto Ferrari。）
苏黎世城市微型飞行器数据集 - 苏黎世2公里的时间同步航空高分辨率图像，以及相关的其他数据（Majdik，Till，Scaramuzza）

十八、机器人

爱丁堡厨房用具数据库 - 8种原始和二进制图像的20类厨房用具，培训未来的家庭援助机器人（D. Fullerton，A。Goel，RB Fisher）
通过低成本全方位机器人改进的高性能结构3D稀疏映射 - 评估数据集 - 研究论文中使用的数据集：10.1109 / ICIP.2015.7351744（Breckon，Toby P.，Cavestany，Pedro）
用于移动机器人本地化的室内场所识别数据集 - 该数据集包含由2个不同机器人（virtualMe和先驱者）构建的17个不同位置（Raghavender Sahdev，John K. Tsotsos。）
JTL Stereo为机器人追踪数据集 - 11个不同的室内和室外场所，用于机器人跟踪人员在具有挑战性的情况下的任务（Chen，Sahdev，Tsotsos）
元房间 - RGB-D数据由28个对齐的深度相机图像组成，通过让机器人到达特定的地方并使用各种倾斜进行360度平移来收集。（John Folkesson等人）
PanoNavi数据集 - 用于机器人导航的全景数据集，由5个视频组成，持续约1小时。（凌燕然）
机器人3D扫描库 - 来自场景机器人实验的3D点云（Osnabruck和Jacobs大学）
使用迭代方法解决机器人 - 世界手眼校准问题 - 生成这些数据集用于校准机器人 - 摄像机系统。（艾米塔布）
事件相机数据集 - 这是世界上第一个带有基于事件的高速机器人相机数据集的集合（E. Mueggler，H。Rebecq，G。Gallego，T。Delbruck，D。Scaramuzza）
ViDRILO - ViDRILO是一个数据集，包含5个带注释的RGB-D图像序列，这些图像是在具有挑战性的光照条件下在两座办公楼中用移动机器人获取的。（Miguel Cazorla，J。Martinez-Gomez，M。Cazorla，I。Garcia-Varea和V莫雷尔。）
Witham Wharf - 林肯大学每隔10分钟由机器人收集八个地点的RGB-D。（John Folkesson等人）

十九、场景或场所，场景分割或分类

巴塞罗那 - 15,150张图片，巴塞罗那（Tighe和Lazebnik）的城市景观
跨模式地标识别基准 - 在不同天气条件下采取的Dandmark识别基准，包括在几种天气条件下拍摄的17幅地标图像，例如晴天，阴天，雪和日落。（延世大学）
CMU可视化本地化数据集 - 使用配备有IMU，GPS，INS，激光雷达和摄像机的Navlab 11在一年内收集的数据集。（Hernan Badino，Daniel Huber和Takeo Kanade）
冷（舒适的本地化数据库） - 放置本地化（Ullah，Pronobis，Caputo，Luo和Jensfelt）
DAVIS：2016年视频对象分割数据集 - 视频对象分割的基准数据集和评估方法（F. Perazzi，J。Pont-Tuset，B。McWilliams，L。Van Gool，M。Gross和A. Sorkine-Hornung）
DAVIS：视频对象分割数据集2017 - 2017年DAVIS视频对象分割挑战（J. Pont-Tuset，F。Perazzi，S。Caelles，P。Arbelaez，A。Sorkine-Hornung和L. Van Gool）
EDUB-Seg - 用于事件分割的以自我为中心的数据集。（Mariella Dimiccoli，MarcBolaños，Estefania Talavera，Maedeh Aghaei，Stavri G. Nikolov和Petia Radeva。）
2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）
Fieldsafe - 农业中障碍物检测的多模态数据集。（奥胡斯大学）
十五个场景类别 - 十五个自然场景类别的数据集。（李飞飞和奥德奥利瓦）
FIGRIM（细粒度图像可记忆性数据集） - 来自SUN数据库的图像子集，用于人类记忆实验，并提供记忆性分数。（Bylinskii，Isola，Bainbridge，Torralba，Oliva）
几何上下文 - 场景解释图像（Derek Hoiem）
HyKo：用于场景理解的光谱数据集 - 使用紧凑，低成本的快照马赛克（SSM）成像相机拍摄HyKo数据集，该相机能够捕获从移动车辆记录的一次拍摄中的整个光谱立方体，从而实现高光谱场景分析用于道路场景的理解。（科布伦茨 - 兰道大学Active Vision Group）
用于移动机器人本地化的室内场所识别数据集 - 该数据集包含由2个不同机器人（virtualMe和先驱者）构建的17个不同位置（Raghavender Sahdev，John K. Tsotsos。）
室内场景识别 - 67个室内类别，15620个图像（Quattoni和Torralba）
野外的内在图像（IIW） - 野外的内在图像，是用于评估室内场景的内在图像分解的大型公共数据集（Sean Bell，Kavita Bala，Noah Snavely）
LM + SUN - 45,676张图片，主要是城市或人类相关的场景（Tighe和Lazebnik）
可见光和红外光谱中的海事图像 - VAIS同时包含从码头（Zhang，Choi，Daniilidis，Wolf和Kanan）获得的船舶的未注册热图像和可见图像
MASATI：MAritime SATellite图像数据集 - MASATI是一个由光学航空图像组成的数据集，其中6212个样本是从Microsoft Bing Maps获得的。它们被标记并分为7类海洋场景：陆地，海岸，海洋，海岸船舶，海船，海洋与多船，海船详细。（阿利坎特大学）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces之上，但包含数百万个材质标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
MIT内在图像 - 20个物体（Roger Grosse，Micah K. Johnson，Edward H. Adelson和William T. Freeman）
NYU V2混合曼哈顿框架数据集 - 我们在Silberman等人的完整纽约深度数据集V2上提供曼哈顿框架（MMF）分割和MF旋转的混合。（Straub，Julian和Rosman，Guy和Freifeld，Oren和Leonard，John J.和Fisher III，John W.）
OpenSurfaces - OpenSurfaces包含数万个从内部消费者照片中分割出来的表面示例，并使用材料参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
牛津视听分段数据集 - 牛津视听分段数据集与牛津视听分段数据集，包括被击中物体的录音（Arnab，Sapienza，Golodetz，Miksik和Torr）
Thermal Road Dataset - 我们的热路数据集提供了大约6000个在道路场景中捕获的热红外图像，并带有手动注释的地面实况。（3500：一般道路，1500：复杂道路，1000：越野道路）。（Jae Shin Yoon）
场景2场景识别数据库 -365场景类别和800万图像（周，Khosla，Lapedriza，Torralba和Oliva）
场景识别数据库 - 205个场景类别和250万个图像（Zhou，Lapedriza，Xiao，Torralba和Oliva）
RGB-NIR场景数据集 - 以RGB和近红外（NIR）（棕色和Susstrunk）捕获的9个类别中的477个图像
RMS2017 - 重建符合语义室外数据集 - 500个语义注释图像，带有来自真实花园的姿势和点云（Tylecek，Sattler）
RMS2018 - 重建符合语义虚拟数据集 - 带有来自6个虚拟花园的姿势和点云的30k语义注释图像（An，Tylecek）
Southampton-York Natural Scenes数据集 90个场景，25个室内和室外场景类别，具有球形LiDAR，HDR强度，立体声强度全景。（Adams，Elder，Graf，Leyland，Lugtigheid，Muryy）
SUN 2012 - 16,873用于场景分类的完全注释的场景图像（Xiao等）
SUN 397 - 397场景分类场景类别（Xiao等）
SUN RGB-D：RGB-D场景理解基准套件 - 10,000个RGB-D图像，146,617个2D多边形和58,657个3D边界框（Song，Lichtenberg和Xiao）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
Sift Flow（也称为LabelMe Outdoor，LMO） - 2688幅图像，主要是户外自然和城市（Tighe和Lazebnik）
斯坦福背景数据集 - 包含至少一个前景物体的室外场景的715张图像（Gould等人）
表面检测 - 通过颜色空间融合和时间分析进行实时可穿越表面检测 - 评估数据集（Breckon，Toby P.，Katramados，Ioannis）
任务 - 超过450万个真实图像，每个图像具有25个语义，2D和3D任务的基础事实。（Zamir，Sax，Shen，Guibas，Malik，Savarese）
iNaturalist物种分类和检测数据集 - iNaturalist 2017物种分类和检测数据集已由公民科学家收集和注释，包含来自5,000多种不同植物和动物的859,000张图像。（加州理工学院）
ViDRILO - ViDRILO是一个数据集，包含5个带注释的RGB-D图像序列，这些图像是在具有挑战性的光照条件下在两座办公楼中用移动机器人获取的。（Miguel Cazorla，J。Martinez-Gomez，M。Cazorla，I。Garcia-Varea和V莫雷尔。）
线框数据集 - 人造场景的一组RGB图像用连接点和线条注释，描述了场景的大规模几何形状。（Huang et al。）

二十、细分（一般）

用于天空分割的数据集 - 描述它的句子：使用由Juraj Kostolansky提出的基于超像素的天空分割方法，使用此Sky数据集来评估IFT-SLIC和其他超像素算法的方法。它包含60张图像的集合，这些图像基于R. Fergus的Caltech Airplanes Side数据集，具有天空分割的基本事实。（Eduardo B. Alexandre，Paulo AV Miranda，R。Fergus）
阿伯里斯特威斯叶评估数据集 - 用手标记的植物图像标记了一些时间步骤的叶级分割，以及来自植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）
ADE20K - 22 + K层次分割和标记的场景图像（900个场景类别，3 + K类和子类）（Zhou，Zhao，Puig，Fidler，Barriuso，Torralba）
Alpert等。分段评估数据库（Sharon Alpert，Meirav Galun，Ronen Basri，Achi Brandt）
BMC（背景模型挑战） - 用于比较背景减法算法的数据集，由真实视频和合成视频组成（Antoine）
伯克利分段数据集和基准（David Martin和Charless Fowlkes）
CAD 120可供性数据集 - 人类背景下的Pixelwise可供性注释（Sawatzky，Srikantha，Gall）
COLT - 数据集包含40个图像网类别，其中包含手动注释的每像素对象蒙版。（贾莉）
CO-SKEL数据集 - 此数据集由分类骨架和分段掩码组成，用于评估共同骨架化方法。（Koteswar Rao Jerripothula，Jianfei Cai，Jiangbo Lu，Junsong Yuan）
二维路面图像的裂缝检测 - 五组路面图像包含与手工地面真相相关的裂缝和使用现有方法获得的5个自动分割（Sylvie Chambon）
CTU颜色和深度图像数据集的传播服装 - 带有注释角落的传播服装的图像。（Wagner，L.，Krejov D.和Smutn V.（布拉格捷克技术大学））
CTU服装折叠照片数据集 - 服装折叠的各个阶段的颜色和深度图像。（Sushkov R.，Melkumov I.，Smutn y V.（布拉格捷克技术大学））
DeformIt 2.0 - 图像数据增强工具：使用单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像
GrabCut图像数据库（C. Rother，V。Kolmogorov，A。Blake，M。Brown）
组织学图像采集库（HICL） - HICL是来自各种疾病（例如脑癌，乳腺癌和HPV（人乳头瘤病毒） - 宫颈癌）的3870个病理图像（迄今为止）的汇编。（医学图像和信号处理（MEDISP）实验室，西阿提卡大学工程学院生物医学工程系）
ICDAR'15智能手机文档捕获和OCR竞赛 - 挑战1 - 用户使用智能手机拍摄的文档视频，用于模拟移动文档捕获，以及文档角落的地面实况坐标以进行检测。（Burie，Chazalon，Coustaty，Eskenazi，Luqman，Mehri，Nayef，Ogier，Prum和Rusinol）
野外的内在图像（IIW） - 野外的内在图像，是用于评估室内场景的内在图像分解的大型公共数据集（Sean Bell，Kavita Bala，Noah Snavely）
LabelMe图像数据库和在线注释工具（Bryan Russell，Antonio Torralba，Kevin Murphy，William Freeman）
LITS肝脏肿瘤分割 - 130个3D CT扫描，肝脏和肝脏肿瘤的分割。公共基准与Codalab.org的排行榜（Patrick Christ）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces之上，但包含数百万个材质标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
多物种果实花朵检测 - 该数据集由四组花卉图像组成，来自三种不同的树种：苹果，桃子和梨，以及伴随的地面真实图像。（Philipe A. Dias，Amy Tabb，Henry Medeiros）
具有细长部分的对象 - 用于评估我们的方法的三个数据集带有连接约束的定向图像林变换，其包含具有细长部分的对象。这些数据库由280个具有基本事实的鸟类和昆虫的公共图像组成。（Lucy AC Mansilla（IME-USP），Paulo AV Miranda）
OpenSurfaces - OpenSurfaces包含数万个从内部消费者照片中分割出来的表面示例，并使用材料参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
Osnabrück凝视跟踪数据 - 来自几个不同凝视跟踪数据集的318个视频序列，具有基于多边形的对象注释。（Schöning，Faion，Heidemann，Krumnack，Gert，Açik，Kietzmann，Heidemann＆König）
PASCAL-Scribble数据集 - 我们的PASCAL-Scribble数据集为59个对象/填充类别提供了涂鸦注释。（迪林）
PetroSurf3D - 26种高分辨率（亚毫米精度）的岩画3D扫描，用像素标记的岩画进行分割。（Poier，Seidl，Zeppelzauer，Reinbacher，Schaich，Bellandi，Marretta，Bischof）
阴影检测/纹理分割计算机视觉数据集 - 基于视频的阴影检测/抑制序列，具有基础事实（Newey，C.，Jones，O。，＆Dee，HM）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
石溪大学阴影数据集（SBU-Shadow5k） - 来自各种场景和照片类型的大型阴影检测数据集，带有人类注释（Tomas FY Vicente，Le Hou，Chen-Ping Yu，Minh Hoai，Dimitris Samaras）
TRoM：清华道路标记 - 这是一个有助于自动驾驶和ADAS道路标记分割领域的数据集。（刘晓龙，邓志东，曹乐乐，陆洪超）
VOS - 具有200个互联网视频的数据集，用于基于视频的显着对象检测和分割。（贾莉，夏长群）
XPIE - 包含10000个图像的图像数据集，其中包含手动注释的显着对象，8596个图像不包含显着对象。（贾莉，夏长群）

二十一、同时定位和映射

协作SLAM数据集（CSD） - 数据集由四个不同的子集组成 - Flat，House，Priory和Lab--每个子集包含几个RGB-D序列，这些序列可以重建并成功相互重新定位以形成组合的3D模型。使用Asus ZenFone AR捕获每个序列，并为数据集中的每个RGB-D帧提供精确的局部6D姿势。我们还提供深度和颜色传感器的校准参数，每个子集中序列的优化全局姿势，以及每个序列的预构建网格。（Golodetz，Cavallari，Lord，Prisacariu，Murray，Torr）
用于姿态估计，视觉测距和SLAM的事件相机数据数据还包括来自运动捕捉系统的强度图像，惯性测量和地面实况。（ETH）
House3D - House3D是一个虚拟3D环境，由数千个室内场景组成，这些场景配备了各种场景类型，布局和源自SUNCG数据集的对象。它包括超过45,000个室内3D场景，从工作室到带游泳池和健身室的两层房屋。所有3D对象都使用类别标签进行完全注释。环境中的代理可以访问多种模态的观察，包括RGB图像，深度，分割掩模和自上而下的2D地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模RL训练。（Yi Wu，Yuxin Wu，Georgia Gkioxari，Yuandong Tian，facebook research）
具有下视摄像头的Quadrotor室内数据集 - 该数据集包含原始图像的记录，IMU测量以及在办公室大小环境中飞行圆形轨迹的四旋翼飞行器的地面真实姿势。（苏黎世联邦理工大学Scaramuzza，苏黎世大学）
InLoc - 评估6DoF视觉定位算法在具有挑战性的室内场景中的准确性的基准。（Hajime Taira，Masatoshi Okutomi，Torsten Sattler，Mircea Cimpoi，Marc Pollefeys，Josef Sivic，Tomas Pajdla，Akihiko Torii）
长期视觉定位 - 用于评估各种照明和季节条件下的视觉定位和绘图算法的TBenchmark。（Torsten Sattler，Will Maddern，Carl Toft，Akihiko Torii，Lars Hammarstrand，Erik Stenborg，Daniel Safari，Masatoshi Okutomi，Marc Pollefeys，Josef Sivic，Fredrik Kahl，Tomas Pajdla）
PanoNavi数据集 - 用于机器人导航的全景数据集，由5个视频组成，持续约1小时。（凌燕然）
RAWSEEDS SLAM基准数据集（Rawseeds项目）
Rijksmuseum Challenge 2014 - 它由来自rijksmuseum的100K艺术品组成，并附带描述每个物体的大量xml文件。（Thomas Mensink和Jan van Gemert）
Visual Paths的RSM数据集 - 室内空间的可视化数据集，用于基准定位/导航方法。它包括1.5公里的走廊和室内空间，每个框架都有地面实况，测量距起点的厘米距离。包括合成生成的基准走廊。（Jose Rivera-Rubio，Ioannis Alexiou，Anil A. Bharath）
多车辆立体事件摄像机数据集 - 包含具有地面真实姿势，深度图和光流的立体对DAVIS 346b事件摄像机的多个序列。（lex Zihao Zhu，Dinesh Thakur，Tolga Ozaslan，Bernd Pfrommer，Vijay Kumar，Kostas Daniilidis）
TUM RGB-D基准 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（BCrgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）
TUM VI基准测试 - 28个序列，室内和室外，来自立体摄像机和IMU的传感器数据，开始和结束段的准确基础事实。（David Schubert，Thore Goll，Nikolaus Demmel，Vladyslav Usenko，Joerg Stueckler，Daniel Cremers）
视觉测距/ SLAM评估 - 测距基准由22个立体声序列组成（Andreas Geiger和Philip Lenz以及Raquel Urtasun）
具有全光和立体数据的视觉测距数据集 - 该数据集包含由手持平台记录的11个序列，该平台由全光相机和一对立体相机组成。该序列包括不同的室内和室外序列，轨迹长度范围从25米到几百米。记录的序列显示移动物体以及改变照明条件。（Niclas Zeller和Franz Quint，卡尔斯鲁厄卡尔斯鲁厄大学应用科学大学）

二十二、监督和跟踪

一系列具有挑战性的运动分割基准数据集 - 这些数据集包含真实的长短序列，每个序列的运动和帧数增加，以及缺失数据的实际失真。在所有序列的所有帧上提供了基本事实。（Muhammad Habib Mahmood，Yago Diez，Joaquim Salvi，Xavier Llado）
ATOMIC GROUP ACTIONS数据集 - （Ricky J. Sethi等）
AVSS07：基于视频和信号的高级Surveillance 2007数据集（Andrea Cavallaro）
活动建模和异常检测数据集 - 数据集包含45分钟的带有注释异常的视频。（Jagan Varadarajan和Jean-Marc Odobez）
背景减法 - 关于背景减法的数据集列表（Thierry BOUWMANS）
CAMO-UOW数据集 - 在真实场景中拍摄的10个高分辨率视频，用于伪装背景减法（李帅和李万青）
CCTV-Fights - 1000个视频，描绘现实世界的战斗，从CCTV或移动摄像机录制，并在帧级暂时注释。（南洋理工大学ROSE实验室Mauricio Perez）
CMUSRD：监视研究数据集 - 用于室内监控场景的多摄像机视频（K. Hattori，H。Hattori，et al）
DukeMTMC：Duke多目标多镜头跟踪数据集 - 8个摄像头，85分钟，2米镜头，2000人视频（Ergys Ristani，Francesco Solera，Roger S. Zou，Rita Cucchiara，Carlo Tomasi）
DukeMTMC-reID - 用于基于图像的人重新识别的DukeMTMC的子集（8个摄像头，其中702个身份的16,522个训练图像，其他702个身份的2,228个查询图像和17,661个图库图像。）（郑，郑和杨）
ETISEO视频监控下载数据集（INRIA Orion团队和其他人）
FMO数据集 - FMO数据集包含带有快速移动对象的带注释的视频序列 - 在一帧中移动的投影距离大于其大小的对象。（Denys Rozumnyi，Jan Kotera，Lukas Novotny，Ales Hrabalik，Filip Sroubek，Jiri Matas）
HDA +多摄像机监控数据集 - 来自18个异构摄像机（不同分辨率和帧速率）的网络视频，分布在一个研究机构的3个楼层，有13个完全标记的序列，85个人和64028个边界框。（D. Figueira，M。Taiana，A。Nambiar，J。Nascimento和A. Bernardino）
人工点击数据 - 人工点击20K跟踪目标（包括点击错误）（Zhu和Porikli）
Immediacy Dataset - 此数据集专为估计个人关系而设计。（肖楚等人）
MAHNOB数据库 - 包括笑声数据库，HCI标记数据库，MHI模拟数据库（M. Pantic等）
在RGB-D中移动INFants（MINI-RGBD） - 用于婴儿姿势估计的合成的，逼真的RGB-D数据集，其包含具有地面真实关节位置的12个移动婴儿序列。（N. Hesse，C。Bodensteiner，M。Arens，UG Hofmann，R。Weinberger，AS Schroeder）
MSMT17 - 人员重新识别数据集。180小时的视频，12个室外摄像机，3个室内摄像机和12个时隙。（魏龙辉，张世良，高文，田琦）
MVHAUS-PI - 多视图人类交互识别数据集（Saeid等）
多光谱可见近红外视频序列 - 带注释的多光谱视频，可见+近红外（LE2I，Universit de Bourgogne）
Openvisor - 视频监控在线信息库（摩德纳大学和雷焦艾米利亚大学）
停车场数据集 - 停车场数据集是一个汽车数据集，专注于停车场场景中汽车的中度和严重遮挡。（B.Li，TF Wu和SC Zhu）
色情数据库 - 色情数据库是一个色情检测数据集，包含从色情网站和Youtube中提取的近400小时的400个色情和400个非色情视频。（Avila，Thome，Cord，Valle，de Araujo）
普林斯顿跟踪基准 - 100个RGBD跟踪数据集（宋和肖）
QMUL Junction数据集1和2 - 繁忙的道路交叉点的视频。支持异常检测任务。（T. Hospedales Edinburgh / QMUL）
玛丽女王多摄像机分布式交通场景数据集（QMDTS） - QMDTS从城市监控环境中收集，用于研究分布式场景中的监控行为。（徐旭博士。邵刚教授和Timothy Hospedales博士）
道路异常检测 - 22公里，11辆车，正常+4个缺陷类别（Hameed，Mazhar，Hassan）
SALSA：协同社会场景分析 - 一种用于多模态群体行为分析的新数据集（Xavier Alameda-Pineda等）
SBMnet（Scene Background Modeling.NET） - 用于测试背景估计算法的数据集（Jodoin，Maddalena和Petrosino）
SBM-RGBD数据集 - 35个Kinect室内RGBD视频，用于评估和比较用于移动物体检测的场景背景建模方法（Camplani，Maddalena，Moy ?? Alcover，Petrosino，Salgado）
SCOUTER - 视频监控地面实况（移动视角，不同的设置/照明条件，主题的大变化）。30个视频和大约36,000个手动标记的帧。（Catalin Mitrea）
SJTU-BEST一个监控指定的数据集平台，具有逼真的，使用相机拍摄的各种监控图像和视频（上海交通大学）
SPEVI：监督绩效评估倡议（伦敦玛丽女王大学）
Shinpuhkan 2014 - 人物重新识别数据集，包含由16个摄像机捕获的24个人的22,000张图像。（Yasutomo Kawanishi等人）
斯坦福无人机数据集 - 各种类型的代理商（不仅仅是行人，还有骑自行车的人，滑板运动员，汽车，公共汽车和高尔夫球车）的60幅图像和视频，可以在现实世界的室外环境中进行导航，例如大学校园（Robicquet，Sadeghian， Alahi，Savarese）
S-Hock数据集 - 观众人群分析的新基准。（Francesco Setti，Davide Conigliaro，Paolo Rota，Chiara Bassetti，Nicola Conci，Nicu Sebe，Marco Cristani）
在极其杂乱的场景中跟踪 - 这个单一对象跟踪数据集有28个高度混乱的序列，每帧注释（Jingjing Xiao，Linbo Qiao，Rustam Stolkin，Ale Leonardis）
TrackingNet - 用于在野外跟踪的大规模数据集：超过30k个用于训练的注释序列，500多个用于测试的评估序列，评估服务器和用于公平排名的排行榜。（Matthias Muller，Adel Bibi，Silvio Giancola，Salman Al-Subaihi和Bernard Ghanem）
UCF-犯罪数据集：监控视频中的真实异常检测 - 用于监控视频中真实异常检测的大型数据集。它包括1900长和未经修剪的现实监控视频（128小时），包括13个现实异常，如战斗，交通事故，入室盗窃，抢劫等，以及正常活动。（中佛罗里达大学计算机视觉研究中心）
加州大学洛杉矶分校空中事件数据集 - 航空视频中的人类活动，包括人物，物体，社会团体，活动和角色的注释（Shu，Xie，Rothrock，Todorovic和Zhu）
UCSD异常检测数据集 - 安装在海拔高度的固定摄像机，俯瞰行人通道，具有不寻常的行人或非行人运动。
UCSD轨迹聚类和分析数据集 - （Morris和Trivedi）
USC信息科学研究所的ATOMIC PAIR ACTIONS数据集 - （Ricky J. Sethi等）
基于Udine轨迹的异常事件检测数据集 - 具有异常值的合成轨迹数据集（Udine人工视觉和实时系统实验室大学）
视觉跟踪器基准测试 - 100个对象跟踪序列，具有基本事实和Visual Tracker Benchmark评估，包括跟踪来自多个跟踪器的结果（Wu，Lim，Yang）
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，有13789个图像属于30个场景类别，57524个人类边界框，每个用14个二进制属性注释。（Li，Yining和Huang，Chen和Loy，Chen Change and唐小鸥）

二十三、纹理

Brodatz纹理，标准化Brodatz纹理，彩色Brodatz纹理，多波段Brodatz纹理 154个新图像加上112个具有各种变换的原始图像（A. Safia，D。He）
按类别划分颜色纹理图像（textures.forrest.cz）
哥伦比亚 - 乌得勒支反射与纹理数据库（哥伦比亚大学和乌得勒支大学）
DynTex：动态纹理数据库（Renaud Piteri，Mark Huiskes和Sandor Fazekas）
房屋数据集 - 房屋价格的基准数据集，包含有关535间房屋的视觉和文本信息。（艾哈迈德，艾曼和穆斯塔法，穆罕默德）
野外的内在图像（IIW） - 野外的内在图像，是用于评估室内场景的内在图像分解的大型公共数据集（Sean Bell，Kavita Bala，Noah Snavely）
KTH TIPS＆TIPS2纹理 - 姿势/照明/比例变化（Eric Hayman）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces之上，但包含数百万个材质标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
OpenSurfaces - OpenSurfaces包含数万个从内部消费者照片中分割出来的表面示例，并使用材料参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
奥卢纹理数据库（奥卢大学）
牛津可描述纹理数据集 - 47种类别的5640张图像（M.Cimpoi，S。Maji，I。Kokkinos，S。Mohamed，A。Vedaldi）
布拉格纹理分割数据生成器和基准（Mikes，Haindl）
萨尔茨堡纹理图像数据库（STex） - 在奥地利萨尔茨堡周围捕获的476种颜色纹理图像的大集合。（Roland Kwitt和Peter Meerwald）
合成SVBRDF和渲染 - 数据集包含20000个与Cook-Torrance模型中的地面实况表示相关联的20000种不同材质的渲染。仅在研究下分发，非商业使用许可。（“GraphDeco”团队，Inria）
纹理数据库纹理数据库具有25个纹理类，每个40个样本（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
表面和材料的乌普萨拉纹理数据集 - 织物，谷物等
视觉纹理（MIT媒体实验室）

二十四、城市数据集

巴塞罗那 - 15,150张图片，巴塞罗那（Tighe和Lazebnik）的城市景观
城市风景 - 一个大型数据集，包含从50个不同城市的街景中记录的各种立体视频序列，除了更大的20.000个弱注释帧之外，还具有5.000帧的高质量像素级注释。（Cityscpes团队）
CMP Facade数据库 - 包括来自不同地方的606个矫正图像，其中有12个建筑类别注释。（Radim Tylecek）
DeepGlobe卫星图像了解挑战 - 卫星图像上三个深度学习任务的数据集和评估平台：道路提取，建筑物检测和土地类型分类。（Demir，Ilke和Koperski，Krzysztof和Lindenbaum，David和Pang，Guan和Huang，Jing和Basu，Saikat和Hughes，Forest和Tuia，Devis和Raskar，Ramesh）
DroNet：通过驾驶学习驾驶 - 带有标记碰撞数据的自行车视频，用于学习预测车辆的潜在危险情况。（Loquercio，Maqueda，Del Blanco，Scaramuzza）
2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）
房屋数据集 - 房屋价格的基准数据集，包含有关535间房屋的视觉和文本信息。（艾哈迈德，艾曼和穆斯塔法，穆罕默德）
LM + SUN - 45,676张图片，主要是城市或人类相关的场景（Tighe和Lazebnik）
麻省理工学院CBCL StreetScenes挑战框架：（Stan Bileschi）
玛丽女王多摄像机分布式交通场景数据集（QMDTS） - QMDTS从城市监控环境中收集，用于研究分布式场景中的监控行为。（徐旭博士。邵刚教授和Timothy Hospedales博士）
使用1DSfM进行稳健的全局翻译，描述每个数据集的运动问题的全局结构的数值数据（Kyle Wilson和Noah Snavely）
Sift Flow（也称为LabelMe Outdoor，LMO） - 2688幅图像，主要是户外自然和城市（Tighe和Lazebnik）
使用反卷积网络进行街景变化检测 - 具有来自街景图像的对齐图像对的数据库，包括结构，照明，天气和季节变化。（Pablo F. Alcantarilla，Simon Stent，德国Ros，Roberto Arroyo和Riccardo Gherardi）
SydneyHouse - 街景房屋图像，具有精确的3D房屋形状，立面物体标签，密集点对应和注释工具箱。（Hang Chu，Shenlong Wang，Raquel Urtasun，Sanja Fidler）
交通标志数据集 - 从超过350公里的瑞典高速公路和城市道路记录序列（Fredrik Larsson）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）

二十五、视觉与自然语言

INRIA BL-数据库 - 视听语音语料库多模态自动语音识别，音频/视频同步或语音驱动的唇动画系统（Benezeth，Bachman，Lejan，Souviraa-Labastie，Bimbot）
CrisisMMD：来自自然灾害的多模式Twitter数据集 - CrisisMMD多模式Twitter数据集包含数千个手动注释的推文和图像，这些推文和图像是在2017年发生的七次重大自然灾害中收集的，包括地震，飓风，野火和洪水。世界。（Firoj Alam，Ferda Ofli，Muhammad Imran）
DAQUAR - 关于图像的人类问题答案对的数据集，它体现了我们对视觉图灵测试的愿景。（Mateusz Malinowski，Mario Fritz）
结构化查询和空间关系的数据集 - 关于图像的结构化查询的数据集，强调空间关系。（Mateusz Malinowski，Mario Fritz）
DVQA：通过问题回答理解数据可视化 - 关于条形图的VQA数据集：3种类型的问题，300,000个图像，3,487,194个问答对，详细的元数据（Kafle，Cohen，Price，Kanan）
FigureQA - 关于条形图和饼图的VQA数据集，以及数字图：100,000个图像，1,327,368个问答对，100种颜色和图形元素名称，15种问题类型（Kahou，Michalski，Atkinson，Kadar，Trischler，Bengio）
Hannah和她的姐妹数据库 - 一个密集的视听人物导向的面部，语音片段，镜头边界的真实注释（Patrick Perez，Technicolor）
大规模电影描述挑战（LSMDC） - 电影描述的大规模数据集和挑战，包括超过128K的视频 - 句子对，主要来自音频描述（也称为DVS）。（Rohrbach，Torabi，Rohrbach，Tandon，Pal，Larochelle，Courville和Schiele）
MPII数据集 - 基于视频纠正不准确句子的数据集。（Amir Mazaheri）
MPI电影描述数据集 - 文本和视频 - 与源自电影脚本和音频描述的自然语言描述相关联的影片剪辑的数据集。（Rohrbach，Rohrbach，Tandon和Schiele）
Recipe1M - 用于学习烹饪食谱和食物图像的跨模式嵌入的数据集 - Recipe1M是一种新的大规模，结构化的语料库，包含超过一百万个烹饪食谱和1300万个食物图像。作为最大的公开可用的配方数据集合，Recipe1M提供了在对齐的多模态数据上训练大容量模型的能力。（Javier Marin，Aritro Biswas，Ferda Ofli，Nicholas Hynes，Amaia Salvador，Yusuf Aytar，Ingmar Weber，Antonio Torralba）
SemArt数据集 - 用于语义艺术理解的数据集，包括21,384个具有属性和艺术评论的精美绘画图像。（Noa Garcia，George Vogiatzis）
TACoS多级语料库 - 在三个详细级别（长，短和单句）中与自然语言描述相关的烹饪视频数据集。（Rohrbach，Rohrbach，Qiu，Friedrich，Pinkal和Schiele）
TallyQA - 截至2018年的最大开放式计数数据集，它包括评估简单和更高级功能的测试集。（Manoj Acharya，Kushal Kafle，Christopher Kanan）
TDIUC（任务驱动的图像理解） - 截至2018年，这是最大的VQA数据集，它有助于分析12种问题。（Kushal Kafle，Christopher Kanan）
来自Tumblr的TGIF - 100K动画GIF和120K自然语言描述。（Li，Song，Cao，Tetreault，Goldberg，Jaimes，Luo）
多伦多COCO-QA数据集 - 从图像标题自动生成。123287图像78736火车问题38948测试题4种问题：对象，数字，颜色，位置答案都是单字。（Menye Ren，Ryan Kiros，Richard Zemel）
完全看起来 - 评估预测基于人类的图像相似性的基准（Amir Rosenfeld，Markus D. Solbach，John Tsotsos）
Twitter for Sentiment Analysis（T4SA） - 根据文本的情感极性标记约100万条推文（文本和相关图像）; 数据可以用于情绪分析以及野外的其他分析，因为推文是从所有全球制作的推文流中随机抽样的推文。（Lucia Vadicamo，Fabio Carrara，Andrea Cimino，Stefano Cresci，Felice Dell'Orletta，Fabrizio Falchi，Maurizio Tesconi）
UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）
视觉基因组：使用众包密集图像注释连接语言和视觉 - 视觉基因组是一个数据集，一个知识库，一个将结构化图像概念连接到语言的持续努力。（Ranjay Krishna，Yuke Zhu，Oliver Groth，Justin Johnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，李佳丽，David Ayman Shamma，Michael Bernstrein，李飞飞）
使用语言Priors进行视觉关系检测 - 5000个图像，37,993,000个关系，100个对象类别，70个谓词类别（Lu，Krishna，Bernstein，Fei-Fei）
VQA：Visual Question Answering - 一个包含有关图像的开放式问题的新数据集。这些问题需要理解愿景，语言和常识才能回答。（Yash Goyal，Tejas Khot，佐治亚理工学院，陆军研究实验室，弗吉尼亚理工大学）
VQA v1 - VQA：视觉问题回答 - 对于每个图像，我们收集了3个自由形式的自然语言问题，每个问题有10个简明的开放式答案。我们提供两种格式的VQA任务。（Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu）
YouCook2 - 2000长YouTube播放视频，其中每个食谱步骤都是暂时本地化的，并由命令式英语句子描述。边界框注释可用于验证和测试拆分。（周洛威，陈晨亮和Jason Corso）
YouTube电影摘要 - 来自YouTube的电影摘要视频，使用视频片段与句子级别和短语级别的电影简介文本之间的对应关系进行注释。（Pelin Dogan，Boyang Li，Leonid Sigal，Markus Gross）

二十六、其他收藏

4D光场数据集 - 具有9x9x512x512x3输入图像，深度和视差真实性，相机参数和评估掩模的24个合成场景。（Katrin Honauer，Ole Johannsen，Daniel Kondermann，Bastian Goldluecke）
AMADI_LontarSet - 巴厘岛棕榈叶手稿图像数据集，用于二值化，逐个查询单词识别和巴厘岛脚本的孤立字符识别。（AMADI项目等）
带注释的网络耳朵数据集（AWE数据集） - 所有图像都是通过从已知人员的互联网图像中剪切耳朵获得的。（Ziga Emersic，Vitomir Struc和Peter Peer）
生物识别技术评估和测试 - 识别技术评估，包括生物识别技术（欧洲计算电子基础设施）
CALVIN研究组数据集 - 用眼睛跟踪的物体检测，图像网络边界框，同步活动，火柴人和身体姿势，youtube对象，面部，马，玩具，视觉属性，形状类（CALVIN组）
CANTATA视频和图像数据库索引站点（Multitel）
香港中文大学数据集 - 人脸素描，人脸对齐，图像搜索，公共广场观察，遮挡，中心站，麻省理工学院单一和多个摄像机轨迹，人员重新识别（多媒体实验室）
Computer Vision首页测试图像数据库列表（Carnegie Mellon Univ）
计算机视觉实验室OCR数据库（CVL OCR DB） - CVL OCR DB是自然场景中120个二进制注释的文本图像的公共注释图像数据集。（Andrej Ikica和Peter Peer。）
ETHZ各种数据集 - 包括ETH 3D头部姿势，BIWI视听数据，ETHZ形状类，BIWI步行行人，行人，建筑物，4D MRI，个人事件，肝脏无声，食物101.（苏黎世联邦理工学院，计算机视觉实验室）
手指静脉USM（FV-USM）数据库 - 红外手指图像数据库由手指静脉和手指几何信息组成。（Bakhtiar Affendi Rosdi，Universiti Sains Malaysia）
General 100 Dataset - General-100数据集包含100个bmp格式图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）
GPDS孟加拉语和梵文合成签名数据库 - 孟加拉语和梵文签名的双离线和在线签名数据库。（Miguel A. Ferrer，GPDS，ULPGC）
GPDS Synthetic OnLine和OffLine签名数据库 - 双离线和在线拉丁签名数据库。（Miguel A. Ferrer，GPDS，ULPGC）
HKU-IS - 带有像素标记的4447图像用于显着物体检测。（Guanbin Li，Yizhou Yu）
高分辨率3D模型 - 它包括这些数据集的高分辨率渲染。（休伯特等）
I3 - Yahoo Flickr Creative Commons 100M - 此数据集包含照片和视频列表。（B. Thomee，DA Shamma，G。Friedland等人）
国际协会。模式识别技术委员会关于阅读系统的TC11 关于文档文本阅读的数据集索引
IDIAP数据集集 - 26种不同的数据集 - 多模式，攻击，生物识别，草书字符，话语，眼睛凝视，海报，玛雅人手抄本，MOBIO，面部欺骗，游戏，手指静脉，youtube-个性特征（IDIAP团队）
Kinect v2数据集 - 用于评估kinect2深度解码中展开的数据集（Felix等）
Laval HDR天空数据库 - 该数据库包含800张半球形，全天空的HDR照片，可用于户外照明分析。（Jean-Francois Lalonde等人）
Leibe的人/车/对象数据库集（Bastian Leibe）
莲花山图像数据库收藏与真相（Sealeen Ren，Benjamin Yao，Michael Yang）
麻省理工学院Saliency Benchmark数据集 - 集合（指向23个数据集）（Bylinskii，Judd，Borji，Itti，Durand，Oliva，Torralba）
Michael Firman的RGBD数据集列表
Msspoof：2D多光谱面部欺骗 - 演示攻击（欺骗）数据集，包括来自真实数据主题和欺骗数据主题的样本，用纸张执行到NIR和VIS相机（Idiap研究所）
多视图立体评估 - 每个数据集都注册了一个通过激光扫描过程获得的“地面实况”3D模型（Steve Seitz等人）
牛津杂项，包括巴菲，鲜花，电视人物，建筑物等（牛津视觉几何组）
PEIPA图像数据库摘要（欧洲图像处理档案库）
PalmVein欺骗 - 使用纸张（Idiap研究所）对来自欺骗数据主体（对应于VERA Palmvein）的样本进行演示攻击（欺骗）数据集
RSBA数据集 - 用于评估卷帘门调整的序列（Per-Erik等）
重播攻击：2D面部欺骗 - 演示攻击（欺骗）数据集，包括来自真实数据主体和欺骗数据主体的样本，使用纸张，照片和视频从移动设备到笔记本电脑进行。（Idiap研究所）
重播移动：2D面部欺骗 - 演示攻击（欺骗）数据集，包括来自真实数据主体和欺骗数据主体的样本，使用纸张，照片和视频进出移动设备。（Idiap research institute）
合成序列发生器 - 合成序列发生器（G. Hamarneh）
事件相机数据集 - 这是世界上第一个带有基于事件的高速机器人相机数据集的集合（E. Mueggler，H。Rebecq，G。Gallego，T。Delbruck，D。Scaramuzza）
从猫的角度看世界 - 从自由行为的猫头上录下的视频（Belinda Y. Betsch，Wolfgang Einh？用户）
USC Annotated Computer Vision Bibliography数据库出版物摘要（Keith Price）
USC-SIPI图像数据库：纹理，天线，收藏夹（例如Lena）（南加州大学信号与图像处理研究所）
伯尔尼大学数据库手写，在线文档，字符串编辑和图形匹配（伯尔尼大学，计算机视觉和人工智能）
VERA Fingervein欺骗 - 使用纸张（Idiap研究所）对来自欺骗数据主体（对应于VERA Fingervein）的样本进行演示攻击（欺骗）数据集
VERA Fingervein - 使用开放式指纹传感器（Idiap研究所）记录数据主题的Fingervein数据集
VERA PalmVein：PalmVein - 使用开放式palmvein传感器记录数据主题的Palmvein数据集（Idiap研究所）
航空影像中的车辆检测 - VEDAI是航空影像中车辆检测的数据集，作为在无约束环境中对自动目标识别算法进行基准测试的工具。（Sebastien Razakarivony和Frederic Jurie）
视频堆叠数据集 - 用于在手机上评估视频堆叠的数据集（Erik Ringaby等）
腕上摄像机视频数据集 - 从安装在腕式摄像机和头戴式摄像机拍摄的日常生活视频（Katsunori Ohnishi，Atsushi Kanehira，Asako Kanezaki，Tatsuya Harada）
Yummly-1k数据集 - 目标是了解人类的感知，在这种情况下，食物味道相似。（SE（3）Cornell Tech的计算机视觉小组）

二十七、其他

3D网格水印基准数据集（Guillaume Lavoue）
4D光场数据集 - 具有9x9x512x512x3输入图像，深度和视差真实性，相机参数和评估掩模的24个合成场景。（Katrin Honauer，Ole Johannsen，Daniel Kondermann，Bastian Goldluecke）
用于实际低光图像降噪的数据集 - 它包含由低光照相机噪声和低噪声对应物破坏的像素和强度对齐图像对。（J. Anaya，A。Barbu）
AF 4D数据集 - 根据我们的观察，我们确定了10个代表性场景，分为三种类型：（1）不包含面部的场景（NF），（2）在前景中具有面部的场景（FF），以及（3））背景中的面部场景（FB）。对于这些场景中的每一个，我们允许在纹理背景方面进行不同的安排，无论相机是否移动，以及场景中有多少类型的物体改变它们的方向（称为运动开关）。（约克大学Abdullah Abuolaim）
AMADI_LontarSet - 巴厘岛棕榈叶手稿图像数据集，用于二值化，逐个查询单词识别和巴厘岛脚本的孤立字符识别。（AMADI项目等）
主动外观模型数据集（Mikkel B. Stegmann）
飞机追踪（Ajmal Mian）
带注释的网络耳朵数据集（AWE数据集） - 所有图像都是通过从已知人员的互联网图像中剪切耳朵获得的。（Ziga Emersic，Vitomir Struc和Peter Peer）
CITIUS视频数据库 - 包含眼动追踪数据的72个视频数据库，用于评估动态显着性视觉模型。（Xose）
CrowdFlow - 用于人群分析的光流数据集和基准（Gregory Schroeder，Tobias Senst，Erik Bochinski，Thomas Sikora）
CVSSP 3D数据存储库 - 数据集旨在评估一般的多视图重建算法。（Armin Mustafa，Hansung Kim，Jean-Yves Guillemaut和Adrian Hilton）
California-ND - 来自个人照片集的701张照片，包括许多具有挑战性的现实生活中不相同的近似重复照片（Vassilios Vonikakis）
基于剑桥运动的分割和识别数据集（Brostow，Shotton，Fauqueur，Cipolla）
折反射相机校准图像（Yalin Bastanlar）
Chars74K数据集 - 74个英语和卡纳达语字符（Teo de Campos - [email protected]）
硬币图像数据集 - 硬币图像数据集是60类罗马共和党硬币的数据集（Sebastian Zambanini，Klaus Vondrovec）
哥伦比亚相机响应功能：数据库（DoRF）和模型（EMOR）（MD Grossberg和SK Nayar）
哥伦比亚污染物模式和散射参数数据库（Jinwei Gu，Ravi Ramamoorthi，Peter Belhumeur，Shree Nayar）
覆盖 - 复制 - 移动伪造（CMFD）图像及其原件与类似但真实的对象（SGO），突出和解决流行方法的篡改检测模糊性，由自然图像中的自相似性引起（Wen，Zhu，Subramanian，Ng，沉和温克勒）
犯罪现场鞋类印象数据库 - 犯罪现场和参考foorware印象图像（Adam Kortylewski）
用于自动评分系统的曲线跟踪数据库。 - 70个公共图像的地面实况数据库，用于评估我们的方法Bandeirantes和自动分级系统中的其他曲线追踪方法。（Marcos A. Tejada Condori，Paulo AV Miranda）
D-HAZY - 评估定量排序算法的数据集（Cosmin Ancuti等）
DR（eye）VE - 驾驶员注意力数据集（摩德纳大学和雷焦艾米利亚大学）
DTU控制的运动和照明图像数据集（135K图像）（Henrik Aanaes）
视觉眼动的数据库（DOVES） - 从29名人类观察者收集的一组眼睛运动，他们查看101个自然校准图像。（van der Linde，I.，Rajashekar，U.，Bovik，AC等）
DeformIt 2.0 - 图像数据增强工具：使用单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像
密集的室外通信地面实况数据集，用于光流和本地关键点评估（Christoph Strecha）
EISATS：.enpeda ..图像序列分析测试站点（奥克兰大学多媒体成像组）
无特征对象跟踪 - 此数据集包含几个纹理有限的视频序列，用于视觉跟踪，包括手动注释的每帧姿势。（Lebeda，Hadfield，Matas，Bowden）
FlickrLogos-32 - 8240图像的32个产品标识（Stefan Romberg）
General 100 Dataset - General-100数据集包含100个bmp格式图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）
Geometry2view - 此数据集包含用于2视图几何计算的图像对，包括手动注释的点坐标。（Lebeda，Matas，Chum）
汉诺威地区探测器评估数据集 - 多种图像分辨率的特征探测器评估序列，从1.5到800万像素（Kai Cordes）
Hillclimb和CubicGlobe数据集 - 一个拉力赛车的视频，分成几个独立的镜头（用于视觉跟踪和建模）。（Lebeda，Hadfield，Bowden）
休斯顿多式联运分散驾驶数据集 - 68名志愿者在四种不同条件下驾驶同一模拟高速公路（Dcosta，Buddharaju，Khatri和Pavlidis）
高光谱显着物体检测数据集（HS-SOD数据集） - 高光谱（可见光谱）图像数据，用于对显着物体检测进行基准测试，收集60个高光谱图像及其各自的地面实况二值图像和代表性渲染彩色图像（以sRGB渲染）。（Nevrez Imamoglu，Yu Oishi，Zhang Xiaoqiang Zhang，Guanqun Ding，Yuming Fang，Toru Kouyama，Ryosuke Nakamura）
I3 - Yahoo Flickr Creative Commons 100M - 此数据集包含照片和视频列表。（B. Thomee，DA Shamma，G。Friedland等人）
ICDAR'15智能手机文档捕获和OCR竞赛 - 挑战2 - 在各种透视，照明等条件下使用智能手机拍摄的文档图片。基本事实是应该提取的文本内容。（Burie，Chazalon，Coustaty，Eskenazi，Luqman，Mehri，Nayef，Ogier，Prum和Rusinol）
I- HAZE - 具有真实朦胧和无雾的室内图像的去雾基准。（ETHZ）
野外的内在图像（IIW） - 野外的内在图像，是用于评估室内场景的内在图像分解的大型公共数据集（Sean Bell，Kavita Bala，Noah Snavely）
IISc - 孤立对象之间的差异（IISc-DIO） - 使用具有各种对象的可视化搜索任务，数据集在269个人类对象上进行了总共26,675个感知的不相似度测量。（RT Pramod＆SP Arun，IISc）
INRIA特征检测器评估序列（Krystian Mikolajczyk）
图像/视频质量评估数据库摘要（Stefan Winkler）
INRIA的PERCEPTION的图像和视频数据库，通过几个同步和校准的相机（INRIA Rhone-Alpes）收集
用于立体声，光流和视觉测距的KITTI数据集（Geiger，Lenz，Urtasun）
LabelMe图像数据库和在线注释工具（Bryan Russell，Antonio Torralba，Kevin Murphy，William Freeman）
来自地面LiDAR扫描的大规模3D点云数据（Andreas Nuechter）
用于学习相对属性的LFW-10数据集 - 10,000对面部图像的数据集，具有10个属性的实例级注释。（CVIT，IIIT Hyderabad。）
光场材料数据集 - 使用Lytro ILLUM相机拍摄的12种材料类别的1.2k注释图像（Ting-Chun Wang，Jun-Yan Zhu，Ebi Hiroaki，Manmohan Chandraker，Alexei Efros，Ravi Ramamoorthi）
Linkoping滚动快门整流数据集（Per-Erik Forssen和Erik Ringaby）
LIRIS-ACCEDE数据集 - 一系列视频摘录，具有大量内容多样性，并按照情感维度进行注释（Technicolor）
MARIS Portofino数据集 - 描述圆柱形管道对象的水下立体图像数据集，用于测试物体检测和姿态估计算法。（帕尔马大学RIMLab（机器人和智能机器实验室）。）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces之上，但包含数百万个材质标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
MASSVIS（大规模可视化数据集） - 来自各种来源的超过5K种不同的信息可视化，其中一部分已被分类，分段，并带有可记忆性和眼动追踪记录。（Borkin，Bylinskii，Kim，Oliva，Pfister）
MPI Sintel Flow Dataset用于评估源自开源3D动画短片Sintel的光流的数据集。它已经扩展到立体声和视差，深度和相机运动以及分割。（Max Planck Tubingen）
MPI-Sintel光流评估数据集（Michael Black）
MSR-VTT - 200K +视频剪辑/句子对的视频到文本数据库
米德尔伯里学院立体视觉研究数据集（Daniel Scharstein和Richard Szeliski）
使用椭圆建模2D形状 - 他的数据集包含标准和家庭构建数据集中包含的4,526个2D形状。（Costas Panagiotakis和Antonis Argyros）
Multi-FoV - 照片般逼真的视频序列，可以对摄像机的视场（FoV）对各种视觉任务的影响进行基准测试。（Zhang，Rebecq，Forster，Scaramuzza）
多视图立体评估 - 每个数据集都注册了一个通过激光扫描过程获得的“地面实况”3D模型（Steve Seitz等人）
基于激光的 groundtruth 多视图立体图像（ESAT-PSI / VISICS，FGAN-FOM，EPFL / IC / ISIM / CVLab）
NCI癌症图像档案 - 前列腺图像（国家癌症研究所）
NIST 3D兴趣点检测（Helin Dutagaci，Afzal Godil）
NRCS自然资源/农业图像数据库（USDA自然资源保护局）
O- HAZE - 具有真实朦胧和无雾的户外图像的去雾基准。（ETHZ）
用于域适应的对象识别数据集 - 由来自4个不同域的图像组成：艺术图像，剪贴画，产品图像和真实世界图像。对于每个域，数据集包含通常在Office和Home设置中找到的65个对象类别的图像。（Venkateswara Hemanth，Eusebio Jose，Chakraborty Shayok，Panchanathan Sethuraman）
物体去除 - 使用合成光流进行基于密集立体视觉的场景映射的广义动态物体去除 - 评估数据集（Hamilton，OK，Breckon，Toby P.）
闭塞检测测试数据（Andrew Stein）
OpenSurfaces - OpenSurfaces包含数万个从内部消费者照片中分割出来的表面示例，并使用材料参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
OSIE - 对象和语义图像以及眼动追踪 - 700幅图像，5551个分割对象，眼动追踪数据（Xu，Jiang，Wang，Kankanhalli，Zhao）
Osnabrück凝视跟踪数据 - 来自几个不同凝视跟踪数据集的318个视频序列，基于多边形的对象注释（Schöning，Faion，Heidemann，Krumnack，Gert，Açik，Kietzmann，Heidemann＆König）
OTIS：开放湍流图像集 - 通过湍流大气进行长距离成像的几个序列（静态或动态）（Jerome Gilles，Nicholas B. Ferrante）
PanoNavi数据集 - 用于机器人导航的全景数据集，由5个视频组成，持续约1小时。（凌燕然）
PetroSurf3D - 26种高分辨率（亚毫米精度）岩石艺术3D扫描，用像素标记的岩画进行分割（Poier，Seidl，Zeppelzauer，Reinbacher，Schaich，Bellandi，Marretta，Bischof）
PHOS（照明不变数据集） - 在不同照明条件下拍摄的15个场景* 15张图像（Vassilios Vonikakis）
PIRM - 超分辨率基准的感知质量（Blau，Y.，Mechrez，R.，Timofte，R.，Michaeli，T.，Zelnik-Manor，L）
PittsStereo-RGBNIR - 在匹兹堡收集的具有挑战性材料的大型RGB-NIR立体声数据集。（Tiancheng Zhi，Bernardo R. Pires，Martial Hebert和Srinivasa G. Narasimha）
PRINTART：着名绘画版画的艺术图像，包括细节注释。ECCV发布了该数据库自动注释和检索任务的基准。（Nuno Miguel Pinho da Silva）
Pics'n'Trails - 连续存档的GPS和数码照片数据集（Gamhewage Chaminda de Silva）
Pitt图像和视频广告理解 - 丰富的注释包含广告的主题和情感，问题和答案描述了观众被提示采取的行动以及广告用来说服观众的推理（Hussain，Zhang，Zhang，Ye， Thomas，Agha，Ong，Kovashka（匹兹堡大学）>
RAWSEEDS SLAM基准数据集（Rawseeds项目）
ROMA（ROad MArkings）：用于评估道路标记提取算法的图像数据库（Jean-Philippe Tarel，et al）
机器人3D扫描库 - 来自场景机器人实验的3D点云（Osnabruck和Jacobs大学）
滚动快门校正数据集 - 从手持设备中校正滚动快门视频（Per-Erik等）
SALICON - 上下文中的显着性眼动追踪数据集c。在80个图像类别中具有眼睛跟踪数据的1000个图像。（江，黄，段，赵）
Scripps浮游生物相机系统 - 成千上万的c图像。50类浮游生物和其他小型海洋物体（Jaffe等）
ScriptNet：ICDAR2017历史文献作者识别竞赛（历史 - 威斯康星） - 该数据集由超过1100名作家撰写的4782个手写页面组成，其历史可以追溯到13世纪至20世纪。（Fiel Stefan，Kleber Florian，Diem Markus，Christlein Vincent，Louloudis Georgios，Stamatopoulos Nikos，Gatos Basili）
Seam雕刻JPEG图像数据库 - 我们的基于缝纫雕刻的伪造数据库包含500个未触摸的JPEG图像和500个JPEG图像，这些图像通过缝纫处理，均质量为75（Qingzhong Liu）
SIDIRE：用于照明稳健性评估的合成图像数据集 - SIDIRE是一个免费提供的图像数据集，提供合成生成的图像，可以研究照明变化对物体外观的影响（Sebastian Zambanini）
智能手机文档捕获和OCR 2015 - 质量评估 - 在各种条件下使用智能手机拍摄的文档图片视角，照明等。它还具有文本基础事实和OCR准确性，用于培训和测试文档图像质量评估系统。（Nayef，Luqman，Prum，Eskenazi，Chazalon和Ogier）
智能手机文档捕获和OCR 2017 - 移动视频捕获 - 文档的视频录制，以及使用视频流重建的参考地面实况图像。（Chazalon，Gomez-Kr ?? mer，Burie，Coustaty，Eskenazi，Luqman，Nayef，Rusi ?? ol，Sid ?? re和Ogier）
Stony Brook Univeristy真实世界杂波数据集（SBU-RwC90） - 由人类排名的不同杂乱程度的图像（Yu-Ping Yu，Dimitris Samaras，Gregory Zelinsky）
使用反卷积网络进行街景变化检测 - 具有来自街景图像的对齐图像对的数据库，包括结构，照明，天气和季节变化。（Pablo F. Alcantarilla，Simon Stent，德国Ros，Roberto Arroyo和Riccardo Gherardi）
SydneyHouse - 街景房屋图像，具有精确的3D房屋形状，立面物体标签，密集点对应和注释工具箱。（Hang Chu，Shenlong Wang，Raquel Urtasun，Sanja Fidler）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
石溪大学阴影数据集（SBU-Shadow5k） - 来自各种场景和照片类型的大型阴影检测数据集，带有人类注释（Tomas FY Vicente，Le Hou，Chen-Ping Yu，Minh Hoai，Dimitris Samaras）
Technicolor Interestingness Dataset - 基于有趣和无趣样本分类的电影摘录和关键帧及其相应的地面实况文件的集合（Technicolor）
Technicolor Hannah Dataset - 来自电影“汉娜和她的姐妹”的153,825帧，注释了几种类型的音频和视觉信息（Technicolor）
Technicolor HR-EEG4EMO数据集 - 在观看中性和情感视频期间收集的40名受试者的脑电图和其他生理记录（Technicolor）
Technicolor VSD Violent Scenes数据集 - 基于电影中暴力事件提取的地面实况文件集合（Technicolor）
冲突升级解决方案（CONFER）数据库 - 120个视听剧集（约142分钟）来自电视政治辩论的自然主义互动，在实际价值冲突强度方面逐帧注释。（Christos Georgakis，Yannis Panagakis，Stefanos Zafeiriou，Maja Pantic）
开放视频项目（Gary Marchionini，Barbara M. Wildemuth，Gary Geisler，Yaxiao Song）
图卢兹消失点数据集 - 用于消失点估计的曼哈顿场景数据集，它还为每个图像提供相机方向的IMU数据。（Vincent Angladon和Simone Gasparini）
TMAGIC数据集 - 视觉跟踪的几个视频序列，包含强大的平面外旋转（Lebeda，Hadfield，Bowden）
完全看起来 - 评估预测基于人类的图像相似性的基准（Amir Rosenfeld，Markus D. Solbach，John Tsotsos）
TUM RGB-D基准 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（BCrgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）
UCL地面真相光流数据集（Oisin Mac Aodha）
水下单图像颜色恢复 - 前瞻性水下图像的数据集，可使用立体成像使用不同距离和地面真实距离的彩色图表定量评估颜色恢复。（Berman，Levy，Avidan，Treibitz）
热那亚大学数据集用于差异和光流评估（Manuela Chessa）
神经网络系统的验证和验证（Francesco Vivarelli）
非常长的基线干涉测量图像重建数据集（MIT CSAIL）
虚拟KITTI - 从五个不同的虚拟世界生成的40个高分辨率视频（17,008帧），用于：对象检测和多对象跟踪，场景级和实例级语义分割，光流和深度估计（Gaidon，Wang， Cabon，Vig）
视觉对象跟踪挑战 - 这一挑战每年作为ICCV / ECCV研讨会举行，每年都有一个新的数据集和一个更新的评估工具包。（Kristan等人）
WHOI-Plankton - 103个类别的300万张微观海洋浮游生物图像（Olson，Sosik）
WILD：天气和Illumunation数据库（S. Narasimhan，C。Wang.S。Nayar，D。Stolyarov，K。Garg，Y。Schechner，H。Peri）
YACCLAB数据集 - YACCLAB数据集包括合成和真实二进制图像（Grana，Costantino; Bolelli，Federico; Baraldi，Lorenzo; Vezzani，Roberto）
YtLongTrack - 此数据集包含两个视频序列，其中包括低质量，极端长度和完全遮挡等挑战，包括手动注释的每帧姿势。（Lebeda，Hadfield，Matas，Bowden）

致谢：非常感谢所有贡献者对数据库的建议。

原文链接：http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm#action

常用的公共数据集（二）

十一、一般视频

十二、手，手抓，手动和手势数据库

十三、图像，视频和形状数据库检索

十四、对象数据库

十五、人（静态和动态），人体姿势

十六、人员检测和跟踪数据库

十七、遥感

十八、机器人

十九、场景或场所，场景分割或分类

二十、细分（一般）

二十一、同时定位和映射

二十二、监督和跟踪

二十三、纹理

二十四、城市数据集

二十五、视觉与自然语言

二十六、其他收藏

二十七、其他

猜你喜欢