【计算机视觉 | 图像分类】图像分类常用数据集及其介绍(一)

一、CIFAR-10

CIFAR-10 数据集(加拿大高级研究所,10 个类别)是 Tiny Images 数据集的子集,由 60000 张 32x32 彩色图像组成。 这些图像标有 10 个相互排斥的类别之一:飞机、汽车(但不是卡车或皮卡车)、鸟、猫、鹿、狗、青蛙、马、船和卡车(但不是皮卡车)。 每类有 6000 张图像,每类有 5000 张训练图像和 1000 张测试图像。

判断图像是否属于某个类的标准如下:

类名应该位于“这张图片中是什么?”这个问题的可能答案列表中的前列。
图像应该逼真。 贴标机被指示拒绝线条图。
该图像应仅包含该类所引用的对象的一个突出实例。 只要贴标签者仍然清楚该物体的身份,该物体可能会被部分遮挡或从不寻常的角度看到。

在这里插入图片描述

二、ImageNet

ImageNet 数据集包含根据 WordNet 层次结构的 14,197,122 个带注释的图像。 自 2010 年以来,该数据集被用于 ImageNet 大规模视觉识别挑战赛 (ILSVRC),这是图像分类和对象检测的基准。 公开发布的数据集包含一组手动注释的训练图像。 还发布了一组测试图像,但保留了手动注释。 ILSVRC 注释分为两类之一:(1)图像级注释,用于表示图像中是否存在对象类的二进制标签,例如“该图像中有汽车”但“没有老虎, ” 和 (2) 图像中对象实例周围的紧密边界框和类标签的对象级注释,例如,“有一把螺丝刀,其中心位置为 (20,25),宽度为 50 像素,高度为 30 像素 ”。 ImageNet 项目不拥有图像的版权,因此仅提供图像的缩略图和 URL。

非空 WordNet 同义词集总数:21841
图片总数:14197122
带边界框注释的图像数量:1,034,908
具有 SIFT 特征的同义词集数量:1000
具有SIFT特征的图像数量:120万张

在这里插入图片描述

三、MNIST

MNIST 数据库(修改后的国家标准与技术研究所数据库)是大量手写数字的集合。 它有一个包含 60,000 个示例的训练集和一个包含 10,000 个示例的测试集。 它是更大的 NIST 特别数据库 3(由美国人口普查局员工书写的数字)和特别数据库 1(由高中生书写的数字)的子集,其中包含手写数字的单色图像。 这些数字已经过尺寸标准化并位于固定尺寸图像的中心。 来自 NIST 的原始黑白(双层)图像经过尺寸标准化以适合 20x20 像素框,同时保留其纵横比。 由于归一化算法使用的抗锯齿技术,生成的图像包含灰度级。 通过计算像素的质心并平移图像以将该点定位在 28x28 场的中心,图像在 28x28 图像中居中。

在这里插入图片描述

四、CIFAR-100

CIFAR-100 数据集(加拿大高级研究所,100 个类别)是 Tiny Images 数据集的子集,由 60000 张 32x32 彩色图像组成。 CIFAR-100 中的 100 个类分为 20 个超类。 每类有 600 张图像。 每个图像都带有一个“精细”标签(它所属的类)和一个“粗略”标签(它所属的超类)。 每类有 500 张训练图像和 100 张测试图像。

判断图像是否属于某个类的标准如下:

类名应该位于“这张图片中是什么?”这个问题的可能答案列表中的前列。
图像应该逼真。 贴标机被指示拒绝线条图。
该图像应仅包含该类所引用的对象的一个突出实例。
只要贴标签者仍然清楚该物体的身份,该物体可能会被部分遮挡或从不寻常的角度看到。

在这里插入图片描述

五、SVHN (Street View House Numbers)

街景门牌号 (SVHN) 是一个数字分类基准数据集,其中包含从门牌照图片中裁剪出的 600,000 个 32×32 RGB 印刷数字(从 0 到 9)图像。 裁剪后的图像以感兴趣的数字为中心,但附近的数字和其他干扰因素保留在图像中。 SVHN 具有三组:训练集、测试集和包含 530,000 张图像的额外集,这些图像难度较低,可用于帮助训练过程。

在这里插入图片描述

六、CelebA (CelebFaces Attributes Dataset)

CelebFaces Attributes 数据集包含来自 10,177 位名人的 202,599 张尺寸为 178×218 的脸部图像,每个图像都用 40 个二进制标签进行注释,指示头发颜色、性别和年龄等面部属性。

在这里插入图片描述

七、Fashion-MNIST

Fashion-MNIST 是一个数据集,由 10 个类别的 70,000 个时尚产品的 28×28 灰度图像组成,每个类别有 7,000 张图像。 训练集有 60,000 张图像,测试集有 10,000 张图像。 Fashion-MNIST 与原始 MNIST 共享相同的图像大小、数据格式以及训练和测试分割的结构。

在这里插入图片描述

八、CUB-200-2011 (Caltech-UCSD Birds-200-2011)

Caltech-UCSD Birds-200-2011 (CUB-200-2011) 数据集是细粒度视觉分类任务中使用最广泛的数据集。 它包含属于鸟类的 200 个子类别的 11,788 张图像,其中 5,994 张用于训练,5,794 张用于测试。 每张图像都有详细的注释:1 个子类别标签、15 个零件位置、312 个二进制属性和 1 个边界框。 文本信息来自 Reed 等人。他们通过收集细粒度的自然语言描述来扩展 CUB-200-2011 数据集。 每幅图像收集十个单句描述。 自然语言描述是通过Amazon Mechanical Turk(AMT)平台收集的,要求至少10个单词,不包含任何子类别和操作信息。

在这里插入图片描述

九、Places

Places 数据集旨在用于场景识别,包含超过 250 万张图像,涵盖超过 205 个场景类别,每个类别超过 5,000 张图像。

在这里插入图片描述

十、STL-10 (Self-Taught Learning 10)

STL-10 是源自 ImageNet 的图像数据集,广泛用于评估无监督特征学习或自学学习的算法。 除了 100,000 张未标记图像外,它还包含来自 10 个对象类(例如鸟、猫、卡车)的 13,000 张标记图像,其中 5,000 张图像被划分用于训练,其余 8,000 张图像用于测试。 所有图像均为96×96像素大小的彩色图像。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/133106003