计算机视觉数据集介绍

1 MNIST

来源

美国国家标准与技术研究所, National Institute of Standards and Technology (NIST).

官网地址

http://yann.lecun.com/exdb/mnist/
数据功能
手写数字分类
简要说明
训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例的手写数字数据.
文件说明
Training set images: train-images-idx3-ubyte.gz (9.9 MB, 解压后 47 MB, 包含 60,000 个样本)
Training set labels: train-labels-idx1-ubyte.gz (29 KB, 解压后 60 KB, 包含 60,000 个标签)
Test set images: t10k-images-idx3-ubyte.gz (1.6 MB, 解压后 7.8 MB, 包含 10,000 个样本)
Test set labels: t10k-labels-idx1-ubyte.gz (5KB, 解压后 10 KB, 包含 10,000 个标签)
存储形式
字节流方式
TRAINING SET LABEL FILE (train-labels-idx1-ubyte):
[offset] [type] [value] [description]
0000 32 bit integer 0x00000801(2049) magic number (MSB first)
0004 32 bit integer 60000 number of items
0008 unsigned byte ?? label
0009 unsigned byte ?? label
........
xxxx unsigned byte ?? label
The labels values are 0 to 9.
读取方式
with open(labels_path, 'rb') as lbpath:
magic, n = struct.unpack('>II',
lbpath.read(8))
labels = np.fromfile(lbpath,
dtype=np.uint8)
2 CIFAR-10/100
官网地址
http://www.cs.toronto.edu/~kriz/cifar.html
数据功能
物体分类
CIFAR-10简要说明
该数据集共有60000张彩色图像，这些图像是32*32，分为10个类，每类6000张图。这里面有50000张用于训练，构成了5个训练批，每一批10000张图；另外10000用于测试，单独构成一批。测试批的数据里，取自10类中的每一类，每一类随机取1000张。抽剩下的就随机排列组成了训练批。注意一个训练批中的各类图像并不一定数量相同，总的来看训练批，每一类都有5000张图。
CIFAR-10存储形式
batch文件：
Data：一个10000*3072的numpy数组，数据类型是无符号整形uint8。这个数组的每一行存储了32*32大小的彩色图像（32*32*3通道=3072）。前1024个数是red通道，然后分别是green,blue。另外，图像是以行的顺序存储的，也就是说前32个数就是这幅图的像素矩阵的第一行。
Labels：一个范围在0-9的含有10000个数的列表（一维的数组）。第i个数就是第i个图像的类标。
batches.meta文件
包含一个python字典对象，内容有：一个包含10个元素的列表，每一个描述了labels array中每个数字对应类标的名字。比如：label_names[0] == "airplane", label_names[1] == "automobile"
CIFAR-100简要说明
数据集包含100小类，每小类包含600个图像，其中有500个训练图像和100个测试图像。100类被分组为20个大类。每个图像带有1个小类的“fine”标签和1个大类“coarse”标签。
3 SVHN
数据来源
是谷歌的现实世界的街景图片裁剪出数字部分。
官网地址
http://ufldl.stanford.edu/housenumbers
数据功能
数字分类
简要说明
73257 训练图片, 26032 测试图片, 531131 剩余图片部分不是很难，当作额外的训练数据.
10 类, '1' 对应 label 1, '9' 对应 label 9 '0' 对应 10.
文件内容
train.tar.gz, test.tar.gz, extra.tar.gz
存储形式
每个文件可以解压出：以png格式存储的图片，和digitStruct.mat 文件
digitStruct.mat是一个matlab文件，包含一个和原始图片相同数量的结构体 digitStruct ,结构体包括:对应图片的名字，图片中数字的位置，高度，宽度。
读取方式：
digitMat = load('digitStruct.mat')
digitMat.digitStruct----->1*13068 struct array with fields: name bbox
digitMat.digitStruct(1).name------->值为'1.png'
digitMat.digitStruct(1).bbox--------->当图片中只有一个数字时，直接为：
height: 30 left: 43 top: 7 width: 19 label: 5
4 COCO
数据来源
微软
官网地址
http://cocodataset.org
数据功能
物体识别，物体分割，人体骨骼关键点检测，内容分割和标题生成。
简要说明
COCO数据集有91类。
2017年Object Detection版本：118k training, 5k validation, and 41k testing images
文件内容
图片标注
标注实例
属性说明地址http://cocodataset.org/#format-data
2014年版本的数据为例，一共有20G左右的图片和500M左右的标签文件。标签文件标记了每个segmentation+bounding box的精确坐标，其精度均为小数点后两位。一个目标的标签示意如下：
{"segmentation":[[392.87, 275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23, 397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26, 328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73, 474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area": 28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox": [372.23, 266.38, 264.5,208.23], "category_id": 4, "id": 151109}
5 ImageNet
数据来源
李飞飞科研团队发起
官网地址
http://image-net.org/
数据功能
物体分类1000分类，单目标定位1000类，目标检测200类
文件内容
训练集训练集标签验证集验证集标签测试集测试集标签
标注实例
训练集中，每个文件夹的名字对应一个类别，每个文件夹下保存相关类别的图片，每一个图片都有一个xml文件对应，保存标签信息
name:wordNet格式标注名字
bndbox：为物体标签框

计算机视觉数据集介绍

猜你喜欢