【文献阅读】Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms

https://blog.csdn.net/u011995719/article/details/77834375

        命名技巧：
        项目目的：
        数据源：
        数据制作：

推荐阅读：数据制作

paper 地址：https://arxiv.org/abs/1708.07747
数据集下载：https://github.com/zalandoresearch/fashion-mnist
上个月底突然被Fashion-MNIST刷屏，于是乎看看这个数据集是个什么样的数据集。
命名技巧：

Fashion-MNIST其命名很有技巧，“蹭”了MNIST，要不然也火不了。就像JAVAsript 的命名，JAVAsript和JAVA没啥关系，就是“蹭”热度，起个好名字啊！引用知乎的图片：
这里写图片描述
项目目的：

制作这个数据集的目的就是取代MNIST，作为机器学习算法良好的“检测器”，用以评估各种机器学习算法。为什么不用MNIST了呢？因为MNIST就现在的机器学习算法来说，是比较好分的，很多机器学习算法轻轻松松可以达到99%，因此无法区分出各类机器学习算法的优劣。
为了和MNIST兼容，Fashion-MNIST 与MNIST的格式，类别，数据量，train和test的划分，完全一致。
数据源：

paper中提到，数据来源于Zalando’s website . 这是什么鬼？查了一下才知道，Zalando是德国的电商，其主要产品是服装和鞋类。再一看作者，是Zalando研究部门的，好吧。可不可以认为是打广告呢！剩下一大笔广告费啊！作者是华人：肖涵。
数据来自不同gender group： men women kids and neutral ；并且，不包含白色的商品，因为白色商品与背景的对比度较低。

类别如下：
标注编号    描述
0    T-shirt/top（T恤）
1    Trouser（裤子）
2    Pullover（套衫）
3    Dress（裙子）
4    Coat（外套）
5    Sandal（凉鞋）
6    Shirt（汗衫）
7    Sneaker（运动鞋）
8    Bag（包）
9    Ankle boot（踝靴）

———————————————–分割线—————————————————-
名称    描述    样本数量    文件大小    链接
train-images-idx3-ubyte.gz    训练集的图像    60,000    26 MBytes    下载
train-labels-idx1-ubyte.gz    训练集的类别标签    60,000    29 KBytes    下载
t10k-images-idx3-ubyte.gz    测试集的图像    10,000    4.3 MBytes    下载
t10k-labels-idx1-ubyte.gz    测试集的类别标签    10,000    5.1 KBytes    下载
数据制作：

在paper中有一点比较值得学习，就是图片如何制作成 28*28的灰度图的过程，可以借鉴此种方法来对自己的图片进行“resize”。
最原始图片是背景为浅灰色的，分辨率为762*1000 的JPEG图片。然后经过resampled 到 51*73 的彩色图片。然后依次经过以下7个步骤，最终得到28*28的灰度图
这里写图片描述

    JPEG –> PNG
    裁剪背景
    按比例： max(h,w)28

扫描二维码关注公众号，回复： 3625154 查看本文章

    将图像缩放，也就是将一个维度缩放至28
    锐化
    再扩充至28*28，再把object调整至图片中央
    将负的像素点剔除
    转化成28*28的灰度图

这一套方法觉得比平时仅采用resize或许会好，可以考虑尝试
---------------------
作者：TensorSense
来源：CSDN
原文：https://blog.csdn.net/u011995719/article/details/77834375?utm_source=copy
版权声明：本文为博主原创文章，转载请附上博文链接！

【文献阅读】Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms

猜你喜欢