图像分类和目标检测常用数据集介绍

The Caltech-UCSD birds-200-2011 dataset（加利福尼亚理工学院鸟类数据集）：

分类数量：200

图片数量：11,788

每个图像的注释：15个部分位置，312个二进制属性，1边界框

Labeled faces in the wild：

Labeled Faces in the Wild是一个面部照片数据库，专为研究无约束人脸识别问题而设计。该数据集包含从网络收集的13,000多张面部图像。每张脸都标有图中人物的名字。图中的1680人在数据集中有两张或更多不同的照片。这些面孔的唯一限制是它们被Viola-Jones面部探测器探测到。

现在有四组不同的LFW图像，包括原始图像和三种不同类型的“对齐”图像。对齐的图像包括“漏斗图像”（ICCV 2007），LFW-a，其使用未发表的对齐方法和“深漏斗”图像（NIPS 2012）。其中，LFW-a和深漏斗图像对于大多数面部验证算法而言比原始图像和漏斗图像（ICCV 2007）产生了优异的结果。

YouTube Video Faces：

用于人脸识别的数据集。该数据集包含3,425个1,595个不同的人的视频。最短剪辑持续时间为48帧，最长剪辑为6,070帧，视频剪辑的平均长度为181.3帧。

在设计我们的视频数据集和基准时，我们遵循“无约束人脸标记”LFW图像集的示例。具体来说，我们的目标是制作大规模的视频集合以及指示每个视频中出现的人的身份的标签。此外，我们还发布了基准测试，旨在衡量视频对匹配技术在这些视频上的表现。最后，我们使用完善的描述符方法为这些视频中出现的面部提供描述符编码。

CALTECH 101(加利福尼亚理工学院101类图像数据库)：

Caltech 101数据集由总共9146个图像组成，分为101个不同的对象类别，以及一个额外的背景/杂波类别。每个对象类别平均包含40到800个图像。常用和流行的类别（如面部）往往比较少使用的类别具有更多的图像。每个图像的尺寸约为300x200像素。2003年9月，李菲菲，马克安德烈托和Marc'Aurelio Ranzato收集。诸如飞机和摩托车的定向物体的图像被镜像为左右对齐，并且诸如建筑物的垂直定向结构被旋转为离轴。

我们仔细标注了这些图片中每个对象的轮廓，这些都包含在“Annotations.tar”中。

还有一个matlab脚本来查看注释'show_annotations.m'。

Caltech 256(加利福尼亚理工学院256类图像数据库)：

一组具有挑战性的256个类别的数据集，其中包含总共30607个图像。包括最初的Caltech-101数据集的内容。

图像收集的方式：选择一种类别，从Google图像下载示例，然后手动筛选出不适合该类别的所有图像。

Caltech-256也以上面的方式收集，有几处改进：

类别数量增加一倍以上，从101类增加到256类；

任何类别中图像的最小数量从31增加到80；

避免因图像旋转造成的伪影；

引入了一个新的更大的杂波类别来测试背景拒绝。

MIT-67 indoor scenes：

这是一个室内场景的数据集，由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳，因而这个数据集非常有用。内有 67 个室内类别，共 15,620 张图像。每个类的图像数量在101-738之间。

我们可以使用它6700个图像的子集（每个类100个）进行训练和测试。训练集中每个类有80个图像。每个类别的剩余20个图像被设置用于测试。

PASCAL VOC 2007：

一个用来做目标检测的数据集。

一共有20个类，共9,963张图像，包含24,640个带注释的对象：

人：人

动物：鸟，猫，牛，狗，马，羊

车辆：飞机，自行车，船，公共汽车，汽车，摩托车，火车

室内：瓶子，椅子，餐桌，盆栽，沙发，电视/显示器

Adience dataset：

一个人脸性别的数据集。

照片总数： 26580
人数： 2284
年龄组数/标签： 8（0-2，4-6，8-13，15-20，25-32，38-43，48-53，60 - ）
性别标签：是

CIFAR-10：

CIFAR-10 是一个包含60000张图片的数据集。其中每张照片为32*32的彩色照片，每个像素点包括RGB三个数值，数值范围 0 ~ 255。

所有照片分属10个不同的类别，分别是 'airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck'

其中五万张图片被划分为训练集，剩下的一万张图片属于测试集。

Microsoft Common Objects in Context(COCO)数据集：

该数据集主要有的特点如下:

对象分割；

在背景下的认可；

超像素的东西分割；

330K图像（> 200K标记）；

150万个对象实例；

80个对象类别；

91个东西类别；

每张图片5个字幕；

250,000个有关键点的人。