【计算机视觉 | 图像分类】图像分类常用数据集及其介绍（一）

文章目录

一、CIFAR-10

CIFAR-10 数据集（加拿大高级研究所，10 个类别）是 Tiny Images 数据集的子集，由 60000 张 32x32 彩色图像组成。这些图像标有 10 个相互排斥的类别之一：飞机、汽车（但不是卡车或皮卡车）、鸟、猫、鹿、狗、青蛙、马、船和卡车（但不是皮卡车）。每类有 6000 张图像，每类有 5000 张训练图像和 1000 张测试图像。

判断图像是否属于某个类的标准如下：

类名应该位于“这张图片中是什么？”这个问题的可能答案列表中的前列。
图像应该逼真。贴标机被指示拒绝线条图。
该图像应仅包含该类所引用的对象的一个突出实例。只要贴标签者仍然清楚该物体的身份，该物体可能会被部分遮挡或从不寻常的角度看到。

在这里插入图片描述

二、ImageNet

ImageNet 数据集包含根据 WordNet 层次结构的 14,197,122 个带注释的图像。自 2010 年以来，该数据集被用于 ImageNet 大规模视觉识别挑战赛 (ILSVRC)，这是图像分类和对象检测的基准。公开发布的数据集包含一组手动注释的训练图像。还发布了一组测试图像，但保留了手动注释。 ILSVRC 注释分为两类之一：（1）图像级注释，用于表示图像中是否存在对象类的二进制标签，例如“该图像中有汽车”但“没有老虎， ” 和 (2) 图像中对象实例周围的紧密边界框和类标签的对象级注释，例如，“有一把螺丝刀，其中心位置为 (20,25)，宽度为 50 像素，高度为 30 像素 ”。 ImageNet 项目不拥有图像的版权，因此仅提供图像的缩略图和 URL。

非空 WordNet 同义词集总数：21841
图片总数：14197122
带边界框注释的图像数量：1,034,908
具有 SIFT 特征的同义词集数量：1000
具有SIFT特征的图像数量：120万张

在这里插入图片描述

三、MNIST

MNIST 数据库（修改后的国家标准与技术研究所数据库）是大量手写数字的集合。它有一个包含 60,000 个示例的训练集和一个包含 10,000 个示例的测试集。它是更大的 NIST 特别数据库 3（由美国人口普查局员工书写的数字）和特别数据库 1（由高中生书写的数字）的子集，其中包含手写数字的单色图像。这些数字已经过尺寸标准化并位于固定尺寸图像的中心。来自 NIST 的原始黑白（双层）图像经过尺寸标准化以适合 20x20 像素框，同时保留其纵横比。由于归一化算法使用的抗锯齿技术，生成的图像包含灰度级。通过计算像素的质心并平移图像以将该点定位在 28x28 场的中心，图像在 28x28 图像中居中。

在这里插入图片描述

四、CIFAR-100

CIFAR-100 数据集（加拿大高级研究所，100 个类别）是 Tiny Images 数据集的子集，由 60000 张 32x32 彩色图像组成。 CIFAR-100 中的 100 个类分为 20 个超类。每类有 600 张图像。每个图像都带有一个“精细”标签（它所属的类）和一个“粗略”标签（它所属的超类）。每类有 500 张训练图像和 100 张测试图像。

判断图像是否属于某个类的标准如下：

类名应该位于“这张图片中是什么？”这个问题的可能答案列表中的前列。
图像应该逼真。贴标机被指示拒绝线条图。
该图像应仅包含该类所引用的对象的一个突出实例。
只要贴标签者仍然清楚该物体的身份，该物体可能会被部分遮挡或从不寻常的角度看到。

在这里插入图片描述

五、SVHN (Street View House Numbers)

街景门牌号 (SVHN) 是一个数字分类基准数据集，其中包含从门牌照图片中裁剪出的 600,000 个 32×32 RGB 印刷数字（从 0 到 9）图像。裁剪后的图像以感兴趣的数字为中心，但附近的数字和其他干扰因素保留在图像中。 SVHN 具有三组：训练集、测试集和包含 530,000 张图像的额外集，这些图像难度较低，可用于帮助训练过程。

在这里插入图片描述

六、CelebA (CelebFaces Attributes Dataset)

CelebFaces Attributes 数据集包含来自 10,177 位名人的 202,599 张尺寸为 178×218 的脸部图像，每个图像都用 40 个二进制标签进行注释，指示头发颜色、性别和年龄等面部属性。

在这里插入图片描述

七、Fashion-MNIST

Fashion-MNIST 是一个数据集，由 10 个类别的 70,000 个时尚产品的 28×28 灰度图像组成，每个类别有 7,000 张图像。训练集有 60,000 张图像，测试集有 10,000 张图像。 Fashion-MNIST 与原始 MNIST 共享相同的图像大小、数据格式以及训练和测试分割的结构。

在这里插入图片描述

八、CUB-200-2011 (Caltech-UCSD Birds-200-2011)

Caltech-UCSD Birds-200-2011 (CUB-200-2011) 数据集是细粒度视觉分类任务中使用最广泛的数据集。它包含属于鸟类的 200 个子类别的 11,788 张图像，其中 5,994 张用于训练，5,794 张用于测试。每张图像都有详细的注释：1 个子类别标签、15 个零件位置、312 个二进制属性和 1 个边界框。文本信息来自 Reed 等人。他们通过收集细粒度的自然语言描述来扩展 CUB-200-2011 数据集。每幅图像收集十个单句描述。自然语言描述是通过Amazon Mechanical Turk（AMT）平台收集的，要求至少10个单词，不包含任何子类别和操作信息。

在这里插入图片描述

九、Places

Places 数据集旨在用于场景识别，包含超过 250 万张图像，涵盖超过 205 个场景类别，每个类别超过 5,000 张图像。

在这里插入图片描述

十、STL-10 (Self-Taught Learning 10)

STL-10 是源自 ImageNet 的图像数据集，广泛用于评估无监督特征学习或自学学习的算法。除了 100,000 张未标记图像外，它还包含来自 10 个对象类（例如鸟、猫、卡车）的 13,000 张标记图像，其中 5,000 张图像被划分用于训练，其余 8,000 张图像用于测试。所有图像均为96×96像素大小的彩色图像。

在这里插入图片描述