机器学习的3个数据集

数据集处理步骤

查看该数据集对应的描述（摘要，详细描述，变量信息）
下载并用 Excel 等工具查看数据集（变量名，数量），根据目的看是否需要变量清洗
查看数据集对应的论文

SCADI.csv

摘要：

基于 ICF-CY 的第一个自我护理活动数据集

ICF-CY - 国际功能，残疾和健康分类（青少年版）

数据集描述：

该数据集来自 70 例身体残疾和运动残疾儿童病例，包含 206 条属性（依据 ICF-CY）

特别的，到今天为止 SCADI 数据集是唯一的一个 ML 研究人员使用的《基于 ICF CY 自我护理问题分类》。

“类”领域是指存在身体和运动残疾儿童的自我保健问题，这些课程由职业治疗师决定。

最近从数据集中删除了儿童的姓名和社会安全号码。

两个文件已经被处理， SCADI.arff 和 SCADI.CSV 分别用于 WEKA 和 MATLAB，或者类似的工具。

属性信息：

1：性别：性别（1＝男性，0＝女性）

2：年龄：年龄

3-205：基于 ICF-CY 的自我护理活动（1＝病例具有此特征；0 = 其他）

206：

分类（
分类1 = 关心身体部位问题；
分类2 = 如厕问题；
分类3 = 穿衣问题；
分类4 = 独立洗澡、自我护理和穿衣问题；
分类5 = 独立洗澡，自我护理，如厕和穿衣问题；
分类6 = 吃，喝，独立洗澡，自我护理，洗脸，梳妆，照顾他人，保护他人；
分类7 = 没有问题）

注意：

如数据集下载完毕后为 SCADI-Dataset.txt ，重命名修改为 SCADI-Dataset.rar
即可正常打开。
这里写图片描述

SGEMM GPU kernel performance

摘要

运行时间为两个 2048 x 2048 的矩阵相乘，使用 GPU OpenCL SGEMM 内核不同参数,使用库为 CLTune

CLTune ( A Generic Auto-Tuner for OpenCL Kernels )：一种通用的OpenCL内核自动调谐器

数据集描述：

该数据集测量矩阵矩阵乘积 A*B＝C 的运行时间，

其中所有矩阵具有 2048×2048 的大小，使用具有 241600 个可能参数组合的可参数化的 SGEMM GPU 内核。

对于每个测试组合，执行 4 次运行，并将其结果报告为 4 个最后列。

所有时间都以 ms 为单位测量。

有 14 个参数，前 10 个是序数的，只能取 4 个不同的两个值的幂，而 4 个最后的变量是二进制的。在 1327104 个总参数组合中，只有 241600 个是可行的（由于各种内核约束）。该数据集包含所有这些可行组合的结果。

该实验运行在一台运行 Ubuntu 16.04 Linux 的桌面工作站上，英特尔内核 I5（3.5GHz）、16GB RAM 和 Nvidia GeFig GTX 680 4GB GF580GTX-1.5 GB GPU。我们使用来自自动 OpenCL 内核优化库 'CalTun' 的“GEMMYFAST”内核。

属性信息：

独立变量：

1-2. MWG，NWG：每个矩阵 2D 在工作组级别的瓦片：{ 16, 32, 64，128 }（整数）

3 . KWG：工作组级别 2D 瓦片的内部维度：{ 16, 32 }（整数）

4-5. MDIMC，NDIMC：本地工作组大小：{ 8, 16, 32 }（整数）

6-7. MDEMA，NDIMB：局部内存形状：{ 8, 16, 32 }（整数）

8 . KWI：内核循环展开因子：{ 2, 8 }（整数）

9-10. VWM，VWN：每个矩阵向量宽度的加载和存储：{ 1, 2, 4，8 }（整数）

11-12. STRM，STRN：允许访问片外存储器：单线程：{ 0, 1 }（分类）

13-14.SA，SB：每 2D 工作组瓦片的矩阵手动缓存：{ 0, 1 }（分类）

输出：

15-18. Run1，Run2，Run3，Run4：使用相同参数的4个独立运行的毫秒执行时间：它们介于 13.25 和 3397.08 之间。

Student Performance

摘要

预测学生在中等教育（高中）的表现。

数据集描述：

这一数据接近两个葡萄牙语学校中学教育的学生成绩。

数据属性包括学生成绩，人口统计学，社会和学校相关的特点，它是通过使用学校报告和问卷收集。

提供两个数据集的性能在两个不同的科目：数学（MAT）和葡萄牙语（POR）。在[科尔特斯和席尔瓦，2008 ]中，在二进制/五级分类和回归任务下对两个数据集进行建模。

重要注意事项：目标属性 G3 与属性 G2 和 G1 具有很强的相关性。这是因为 G3 是最后一年级（在第三期发布），而 G1 和 G2 对应于第一和第二周期等级。没有 G2 和 G1 预测 G3 更困难，但是这样的预测更有用。

属性信息：

学生 MAT.CSV（数学课程）和学生 PAR.CSV（葡萄牙语课程）数据集的属性：

1 学生的学校（二进制：“GP”- Gabriel Pereira 或 “MS”- Mousinho da Silveira）

2 学生的性别（二进制：“F”-女性或 “M”-男性）

3 学生年龄（数字：15 至 22）

4学生的家庭地址类型（二进制：“U”-城市或 “R”-农村）

5 家庭大小（二进制：’LE3‘-小于或等于 3 或 ‘GT3’- 大于3）

6 父母状态-父母是否同居（二进制：‘T’-同居或 ‘A’-分开’）

7 母亲教育（数字：0 -无，1-小学教育（四年级），2-第五至第九年级，3-中等教育或 4 -“高等教育”）

8 父亲教育（数字：0 -无，1-小学教育（四年级），2-第五至第九年级，3-中等教育或 4 -“高等教育”）

9 妈妈的工作（名义上：“老师”，“健康护理”，“民事服务”（如行政或警察），“全职妈妈”或“其他”）

10 父亲的工作（名义上：“老师”，“健康护理”，“民事服务”（如行政或警察），“全职妈妈”或“其他”）

11 选择这所学校的理由（名义上：“离家近”，“学校声誉好”，“课程偏爱”或“其他”）

12 学生监护人（标称：‘母亲’、‘父亲’或‘他人’）

13 从家到学校的时间（数字：1 - 15 分钟，2 - 15 至 30 分钟，3 - 30 分钟至 1 小时，或 4 - 1小时）

14 每周学习时间（数字：1 - 2小时，2 - 2至5小时，3 - 5至10小时，或4 -10小时）

15 过去班级失败的数目（数值：n，1<n<=3，否则为4）

16 额外教育支持（二进制：是或否）

17 家庭教育支持（二进制：是或否）

18 课程科目（数学或葡萄牙语）的额外付费课程（二进制：是或否）

19 课外活动（二进制：是或否）

20 托儿所（二进制：是或否）

21 想接受高等教育（二进制：是或否）

22 家庭互联网接入（二进制：是或否）

23 早恋（二进制：是或否）

24 家庭关系的质量（数字：从 1 到非常低到 5 非常高）

25 课余自由时间（数字：从 1 到非常低到 5 非常高）

26 与朋友外出（数字：从 1 到非常低到 5 非常高）

27 工作日饮酒量（数字：从 1 到非常低到 5 非常高）

28 周末饮酒量（数字：从 1 到非常低到 5 非常高）

29 当前健康状况（数字：从 1 到非常低到 5 非常高）

30 学校缺席人数（数字：0 至 93）

这些成绩与课程科目、数学或葡萄牙语有关：

31 G1 -第一期成绩（数字：0 至 20）

31 G2 -第二期成绩（数字：0 至 20）

32 G3-最终成绩（数字：0 到 20，输出目标）