17个最受欢迎的机器学习应用标准数据集

转自：http://bi.dataguru.cn/article-10206-1.html
摘要: 学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题，需要有不同的数据准备和建模方法。本文介绍了10个最受欢迎的标准机器学习数据集，可以用作练习的资源。每个数据集均按照一定的格式介绍，以使读者 …
工具机器学习商业智能 ETL 时间序列

学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题，需要有不同的数据准备和建模方法。本文介绍了10个更受欢迎的标准机器学习数据集，可以用作练习的资源。

每个数据集均按照一定的格式介绍，以使读者相对容易比较，为他们的特定练习任务选择数据集或建模方法。

格式：

名称：如何引用数据集
问题类型：是回归问题还是分类问题
输入和输出：输入和输出特征的数量和名称
性能：使用零规则算法（Zero Rule Algorithm）的基准性能比较，以及已知的较佳性能
示例：原始数据前5行的快照
链接：下载数据集及了解更多的链接

标准数据集
下面是本文将介绍的 10 个数据集的列表。每个数据集都不大，能够适应内存或使用电子表格查看。所有数据集都由表格数据组成，并且没有（显式的）缺失值。

瑞典汽车保险数据集
葡萄酒质量数据集
比马印第安人糖尿病数据集
声纳数据集
钞票数据集
鸢尾花卉数据集
鲍鱼数据集
电离层数据集
小麦种子数据集
波士顿房价数据集

瑞典汽车保险数据集
瑞典汽车保险数据集（ Swedish Auto Insurance Dataset）包含了对所有索赔要求的总赔付预测，以千瑞典克朗计，给定的条件是索赔要求总数。

这是一个回归问题。它由 63 个观察值组成，包括1个输入变量和1个输出变量。变量名分别是：

索赔要求数量
对所有索赔的总赔付，以千瑞典克朗计

预测平均值的基准性能的均方根误差（RMSE）约为 72.251 千克朗。

前5行的示例如下：

下面是整个数据集的散点图：

下载地址：http://t.cn/RfHWAbI

葡萄酒质量数据集

葡萄酒质量数据集（Wine Quality Dataset ）涉及根据每种葡萄酒的化学度量值来预测白葡萄酒的质量。

它是一个多类分类问题，但也可以定义为回归问题。每个类的观察值数量不均等。一共有 4898个观察值，11个输入变量和一个输出变量。变量名如下：

非挥发性酸度
挥发性酸度
柠檬酸
残留糖
氯化物
游离二氧化硫
总二氧化硫
浓度
pH值
硫酸盐
酒精度
质量（得分在 0 和 10 之间）

预测平均值的基准性能的均方根误差（RMSE）为 0.148 的质量分数。

数据集前5行的示例如下：

比马印第安人糖尿病数据集
比马印第安人糖尿病数据集（Pima Indians Diabetes Dataset）涉及根据医疗记录预测比马印第安人5年内糖尿病的发病情况。

它是一个二元分类问题。每个类的观察值数量不均等。一共有 768 个观察值，8个输入变量和1个输出变量。缺失值通常用零值编码。变量名如下：

怀孕次数
口服葡萄糖耐受试验中，2小时的血浆葡萄糖浓度。
舒张压（mm Hg）
三头肌皮肤褶层厚度（mm）
2小时血清胰岛素含量（μU/ ml）
体重指数（体重，kg /（身高，m）^ 2）
糖尿病家族史
年龄（岁）
类变量（0 或 1）

预测最普遍类的基准性能是约 65％的分类准确率，较佳结果达到约 77% 的分类准确率。
数据集前5行的示例如下：

下载地址：http://t.cn/RfaFfq8

声纳数据集
声纳数据集（Sonar Dataset ）涉及预测根据给定声纳从不同角度返回的强度预测目标物体是岩石还是矿井。

它是一个二元分类问题。每个类的观察值数量不均等。一共有208个观察值，60个输入变量和1个输出变量。变量名如下：

从不同角度返回的声纳
… …
类（M为矿井，R为岩石）

预测最普遍类的基准性能是约 53％的分类准确率，较佳结果达到约 88% 的分类准确率。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GrP7

钞票数据集
钞票数据集（Banknote Dataset）涉及根据给定钞票的数个度量的照片预测是真钞还是假钞。

它是一个二元分类问题。每个类的观测值数量不均等。一共有 1372 个观察值，4个输入变量和1个输出变量。变量名如下：

小波变换图像（连续）
小波偏斜变换图像（连续）
小波峰度变换图像（连续）
图像熵（连续）。
类（0 为真钞，1 为假钞）

预测最普遍类的基准性能是约 50％的分类准确率。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GdQo

鸢尾花卉数据集
鸢尾花卉数据集（Iris Flowers Dataset ）涉及根据鸢尾花的测量数据预测花卉品种。

它是一个多类分类问题。每个类的观察值数量是均等的。一共有 150 个观察值，4个输入变量和1个输出变量。变量名如下：

萼片长度（cm）
萼片宽度（cm）
花瓣长度（cm）
花瓣宽度（cm）
类（Iris Setosa，Iris Versicolour，Iris Virginica）

预测最普遍类的基准性能是约 26％的分类准确率。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GeUq

鲍鱼数据集
鲍鱼数据集（Abalone Dataset）涉及根据鲍鱼个体的测量数据来预测鲍鱼的年龄（环的数量）。

它是一个多类分类（multi-class classification）问题，但也可以作为回归问题。每个类的观察值数量不均等。该数据集有 4177 个观察值，8个输入变量和1个输出变量。变量名如下：

性别（M，F，I）
长度
直径
高度
总重量
剥壳重量
内脏重量
壳重
环的数量

预测最普遍类的基准性能是约 16％的分类准确率，预测平均值的基准性能的均方根误差（RMSE）是约 3.2 个环。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GDdu

电离层数据集
电离层数据集（Ionosphere Dataset）需要根据给定的电离层中的自由电子的雷达回波预测大气结构。

它是一个二元分类问题。每个类的观察值数量不均等，一共有 351 个观察值，34 个输入变量和1个输出变量。变量名如下：

1 17对雷达回波数据。
2 … …
3 类（g 表示好，b 表示坏）。

预测最普遍类的基准性能是约 64％的分类准确率，较佳结果达到约 94% 的分类准确率。

该数据集前5行的示例如下：

下载地址：http://t.cn/Rf8GFY4

小麦种子数据集
小麦种子数据集（Wheat Seeds Dataset）涉及对不同品种的小麦种子进行预测，给定的是种子的计量数据。

它是一个二元分类问题。每个类的观察值是均等的，一共 210 个观察值，7个输入变量和1个输出变量。变量名如下：

区域
周长
压实度
籽粒长度
籽粒宽度
不对称系数
籽粒腹沟长度
类（1，2，3）

预测最普遍类的基准性能是约 28％的分类准确率。

数据集前5行的示例如下：

下载地址：http://t.cn/RfHHbzw

波士顿房价数据集
波士顿房价数据集（Boston House Price Dataset）包含对房价的预测，以千美元计，给定的条件是房屋及其相邻房屋的详细信息。

该数据集是一个回归问题。每个类的观察值数量是均等的，共有 506 个观察，13 个输入变量和1个输出变量。变量名如下：

CRIM：城镇人均犯罪率。
ZN：住宅用地超过 25000 sq.ft. 的比例。
INDUS：城镇非零售商用土地的比例。
CHAS：查理斯河空变量（如果边界是河流，则为1；否则为0）。
NOX：一氧化氮浓度。
RM：住宅平均房间数。
AGE：1940 年之前建成的自用房屋比例。
DIS：到波士顿五个中心区域的加权距离。
RAD：辐射性公路的接近指数。
TAX：每 10000 美元的全值财产税率。
PTRATIO：城镇师生比例。
B：1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例。
LSTAT：人口中地位低下者的比例。
MEDV：自住房的平均房价，以千美元计。

预测平均值的基准性能的均方根误差（RMSE）是约 9.21 千美元。

数据集前5行的示例如下：

下载地址：http://t.cn/RfHTAgY

时间序列数据集
机器学习可以在时间序列数据集上应用。这些属于需要预测数值或分类的问题，但数据是按时间排序的。下面介绍7个标准时间序列数据集，可用于使用机器学习进行时间序列预测的实践。

单变量时间序列数据集
只有一个变量的时间序列数据集称为单变量数据集（univariate datasets），其优点是：

简单且容易理解；
支持Excel或其他绘图工具；
易于预测结果和期望结果的比较；
易于尝试你并评估新的方法。

以下是4个单变量时间序列数据集，均可从datamarket上下载。

洗发水销售数据集（Shampoo Sales Dataset）

该数据集描述了3年期间的洗发水月销售量，单位是销售量，有36个观察值。下面是该数据集前5行的示例，包括标题行：

日较低温度数据集（Minimum Daily Temperatures Dataset）

该数据集描述了澳大利亚墨尔本市10年间（1981-1990）的日较低温度。单位是摄氏度，有3650个观察值，数据来源为澳大利亚气象局。

下面是该数据集前5行数据的示例：

每月太阳黑子数数据集（Monthly Sunspot Dataset）

该数据集描述了230年间（1749-1983）观测到的每月太阳黑子数量。单位是太阳黑子数量，有2820个观察值。数据集的来源为 Andrews＆Herzberg（1985）。

下面是前5行数据的示例：

每日女婴出生人数数据集

该数据集描述了1959年加利福尼亚州每日出生的女婴人数。单位是人数，有365个观察值。数据集来源自 Newton（1988）。

下面是前5行的示例：

多变量时间序列数据集
多变量数据集（Multivariate datasets）通常更具挑战性，多变量时间序列数据的主要来源是 UCI 机器学习库（http://archive.ics.uci.edu/ml/），下文推荐的3个数据集均可下载。

EEG 人眼状态数据集
该数据集描述个体的 EEG 数据，以及他们的眼睛是睁着还是闭着。这个问题是为了根据跟定的 EEG 数据预测眼睛的状态。

这是一个分类预测模型问题，共有14980个观察值和15个输入变量。分类值“1”表示眼睛闭着，“0”表示眼睛睁开着。数据按时间排序，记录观察结果的时间是117秒。

下面是数据集前5行的示例：

使用检测数据集（Occupancy Detection Dataset）
这个数据集描述有关房间特征的数据，目的是预测房间是否在使用中。数据集包含几个星期期间，共10560个一分钟的观察，属于分类预测问题。数据集包括7个特征值，例如房间的光线、气温、湿度等。

下面是前5行数据的示例，包括标题行：

臭氧水平检测数据集

这个数据集描述了6年期间的地面臭氧浓度数据，目的是预测是否“臭氧日”。数据集包含2,536个观察值，73个特征。这是分类预测问题，类别值为“1”表示这天是臭氧日，为“0”表示正常日。

下面是前5行的示例：

总结
本文介绍了 10 个更受欢迎的标准数据集，你可以用它们来进行机器学习的应用练习。
可以采取以下步骤：

选择一个数据集。
选择你最喜欢的工具（例如 Weka，scikit-learn 或 R）
看看你的结果比基准分数高多少。

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

17个最受欢迎的机器学习应用标准数据集

猜你喜欢