深度学习的一些数据集介绍

数据集分为三类：图像处理相关数据集，自然语言处理相关数据集和语音处理相关数据集。参考：here

以下主要是图像处理相关数据集。

1、mnist：详情

MNIST数据来自美国国家标准与技术研究所，National Institute of Standards and Technology（NIST）训练集（training set）来自250不同的人手写的数字构成，其中50%是高中学生，50%来自人口普查局（the Census Bureau）的工作人员。测试集（test set）也是同样比例的手写数字数据。

共分为四个文件：

train-images-idx3-ubyte.gz	training set images(9912422 bytes)，55000张训练图片，5000张验证图片，共60000张
train-labels-idx1-ubyte.gz	training set labels(28881 bytes)，
t10k-images-idx3-ubyte.gz	test set images(1648877 bytes)，10000张图片
t10k-labels-idx1-utype.gz	test set labels(4542 bytes)，

数据是IDX文件格式，是一种用来存储向量与多维度矩阵的文件格式。基本格式如下：

TRAINING SET IMAGE FILE (train-images-idx3-ubyte):
    [offset] [type]          [value]          [description]
    0000     32 bit integer  0x00000803(2051) magic number
    0004     32 bit integer  60000            number of images
    0008     32 bit integer  28               number of rows
    0012     32 bit integer  28               number of columns
    0016     unsigned byte   ??               pixel
    0017     unsigned byte   ??               pixel
    ........
    xxxx     unsigned byte   ??               pixel
    Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).

TRAINING SET LABEL FILE (train-labels-idx1-ubyte):
    [offset] [type]          [value]          [description]
    0000     32 bit integer  0x00000801(2049) magic number (MSB first)
    0004     32 bit integer  60000            number of items
    0008     unsigned byte   ??               label
    0009     unsigned byte   ??               label
    ........
    xxxx     unsigned byte   ??               label
    The labels values are 0 to 9.


TEST SET IMAGE FILE (t10k-images-idx3-ubyte):
    [offset] [type]          [value]          [description]
    0000     32 bit integer  0x00000803(2051) magic number
    0004     32 bit integer  10000            number of images
    0008     32 bit integer  28               number of rows
    0012     32 bit integer  28               number of columns
    0016     unsigned byte   ??               pixel
    0017     unsigned byte   ??               pixel
    ........
    xxxx     unsigned byte   ??               pixel
    Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).


TEST SET LABEL FILE (t10k-labels-idx1-ubyte):
    [offset] [type]          [value]          [description]
    0000     32 bit integer  0x00000801(2049) magic number (MSB first)
    0004     32 bit integer  10000            number of items
    0008     unsigned byte   ??               label
    0009     unsigned byte   ??               label
    ........
    xxxx     unsigned byte   ??               label
    The labels values are 0 to 9.

大小：约50M

数量：10个类别，70000张图片

最新技术结果论文（SOTA）：Dynamic Routing Between Capsules

2、MS-COCO【官方说明网址】：Microsoft COCO, 2014年发布【一个详细的COCO学习笔记】。

COCO是一个可用于Object detection, Segmentation and caption的大型数据集。有以下特点：

目标分割
上下文关系识别
超像素分割
330K图像（>200K已经标记）
150万个目标
80个分类
91种目标
每张图片包含5个字幕（5 captions per image）
包含250000个人（已标记）

大小：约25GB（压缩包），500MB左右的标签文件。标签文件标记了每个segmentation+bounding box（即分割物+分割物的边界）的精确坐标，精度均为小数点后两位。

数量：330K张图片，80个对象类别，每个图像5万个描述，25万个人（已标记）

（最新技术论文）SOTA：Mask rcnn

3、ImageNet：【官方】

ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100000个短语，ImageNet平均提供了约1000个图片来说明每个短语。

大小：约150GB

数量：图像总数是14000000+；类别1000。每个都有多个边界框和相应的类标签。

SOTA：Aggregated Residual Transformations for Deep Neural Networks

ISLVRC(ImageNet Large Scale Visual Recognition Challenge)：比赛用的ImageNet的子数据集。

比赛包含有目标定位、目标检测、视频序列的目标检测、场景分类、场景分析这几个项目。

ISLVRC历年的数据集：2016、2015、2014、2013、2012、2011、2010

4、Open Images Dataset：【github链接】

Open Images Dataset是一个包含了超过900w个链接图像的数据集。其中包含9011219张图像的训练集，41260张图像的验证集以及125436张图像的测试集。它的图像中类跨越千个类别，且有图像层级的标注框进行注释。

大小：500G（压缩包）

数量：9011219张超过5K标签的图像

SOTA：Resnet 101 image classfication model(trained on v2 data)：Model checkpoint, Checkpoint readme, inference code.

5、CIFAR-10

数量：10个类别，60000个32x32彩色图像，共分为50000个训练图和10000个侧视图。数据集分为6个部分-5个训练批次（training batches）和1个测试批次（test batches），每个批次（batch）有10000个图像。

大小：170M

SOTA：ShakeDrop regularization

CIFAR-100：

共100个类，每个类包含600个图像，每个类各有500个训练图像和100个测试图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有一个”精细“标签（它所属的类）和一个”粗糙“的标签（它所属的超类）

6、pascal_voc【数据集直接下载地址：2012_trainval、2007_trainval、2007_test】

Pattern Analysis, Statistical Modelling and Computational Learning

VOC：Visual Object Classes

包含了20类的物体。

主要任务是：

分类
检测
Segmentation
人体动作识别
Large scale recognition（由ImageNet主办）

深度学习的一些数据集介绍

猜你喜欢