●观察调查问卷

●数据可视化处理

2.2 数据的处理

●对于特征的删除

一、开发环境介绍

IDE：Pycharm 2020.1.1

环境：python 3.7

用到的库：

numpy：用于多维度数组与矩阵计算

pandas：基于numpy数组，处理表格和混杂数据

sklearn：第三方机器学习库，用到了交叉验证方法和计算均方误差

xgboost：第三方xgboost算法库

matplotlib：用于可视化

二、数据的分析、处理

2.1 数据初步分析

对于数据的处理，首先要对数据的特征以及分布有一定的认识，下面将从观察调查问卷和数据可视化两个方面由浅入深的了解数据。

●观察调查问卷

项目中的所有的数据来源于《中国综合社会调查2015 年度调查问卷》，通过观察问卷可以得到以下信息：

该问卷调查的内容主要包括：

关于被调查者以及被调查者配偶、被调查者子女、家庭的各种信息。

该问卷收集的数据格式主要有：

时间（年）、可连续数值（金钱、面积、身高、体重等）、普通离散的整数

同时发现，问卷中出现了可以“跳问”的选项，这说明或许有些选项是空缺非常严重的。

●数据可视化处理

得到初步的数据信息后，对数据进行可视化处理，进一步获取数据信息。

首先观察不同调查者的id情况：

可以看出，在8000名调查者中，幸福感有-8、1、2、3、4、5几种情况。联系问卷给出的信息，幸福感为-8表示被调查者并不能说出自己的幸福感。因此这部分数据，需要后续的处理。

更进一步，绘制出幸福感的数量分布情况：

上图可以直观地看到幸福感的数目分布情况，其中幸福感为4的人最多。

对于标签的分析结束，下面统计不同特征的缺失情况，绘制出所有特征的缺失率图：

由上图可以看出，绝大部分特征的缺失率非常的低以至于为0，有少数特征的缺失率非常高甚至接近了百分之百。

更进一步，绘制出缺失率大于50%的特征：

对于高缺失率的特征，需要在后面做删除处理。

对于一些比较特殊的数据可能需要特殊处理，比如时间（年），下面以被调查者的出生年份为例，绘制出被调查者ID与其出生年份的关系：

可以看出被调查者的出生时间主要在1920-2000之间分布，由于时间跨度大且数值极多，需要对其进行泛化处理以防止过拟合。

2.2 数据的处理

由于数据分为了训练集和测试集，在特征部分，两者是完全相同的，因此将训练集去除happiness后与测试集合并，方便以后的处理。

●对于特征的删除

根据可视化中的分析，有一部分特征的缺失率非常高，并不适合对其进行填充，因此直接删除缺失率大于50%的特征。

●对于特征的填充

对于缺失率并不高的特征，根据其特点对其进行填充。

观察到marital_now以及marital_1st的空缺可能是由于未结婚造成的，填充为9997

minor_child空缺可能是因为没有孩子，填充为0

根据输出可以看出，family_income这一特征只有1次缺失，可能是由于被调察人的疏忽造成的，

因此将此项填写为family_income的众数

s_xxx这一类特征，都是关于被调查人配偶的情况，也可能是由于被调查人可能没有配

偶而导致该项缺失，因此将该项用0填补。

●对于特征的泛化以及特征工程

对于出生日期这类的数据，其数值跨度十分广泛，为了避免过拟合，对其进行泛化。

特征工程：调查时间（survey_time），考虑到该特征对幸福感的影响并不大，故直接删掉。

●对于标签的修正

由之前的分析得出：-8表示并不确定自己的幸福感，考虑到概率问题，将幸福感为-8替换为众数4

图表 14标签处理核心代码

2.3 数据的规范化

2.3.1 归一化处理

对于特征中具有连续值的量进行归一化处理，使用零-均值规范化（标准差标准化）方法。

归一化后，数据的均值为0，标准差为1。

2.3.2 one-hot 独热编码

对于离散数据，例如问卷中具有具体数字代表选项的特征，使用one-hot编码。

Ont-hot编码简介：对于某特征中的值，有多少不同的值，该特征就会扩展成多少维。例如：城市这一特征中有：‘北京’‘上海’‘青岛’，共三个不同的值，则将城市这一特征扩展成三维：‘北京’->100 ‘上海’->010 ‘青岛’->001.

Ont-hot编码意义：使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。而在回归，分类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。比如，有一个离散型特征，代表工作类型，该离散型特征，共有三个取值，不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。那如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的，显得更合理。

三、训练模型的选择、调优

3.1 任务分析

该任务通过根据多维度的特征，从而判断预测幸福感。

在前期的可视化中观察到，训练集的幸福感分布为1、2、3、4、5以及-8，均为整数，结果有限，可通过分类的方式解决。

但是通过分类的方式预测的幸福感全部为整数，将会导致误差太大，因此采用回归的方式，预测某一浮点数值来表示幸福感。

3.2 模型选择

线性回归：实现简单，计算简单，但对于非线性的数据拟合效果不好。

KNN：本实验属性较多，对训练样本进行分类时，由于计算量大而使其效率大大降低，效果不是很理想。

XGboost：非线性模型。在随机森林的基础上融合boosting的思想建立树与树之间的联系，使森林不再是互相独立的树存在。继承了随机采样、随机属性选择、学习率等算法。

最终选择XGboost算法，算法简介：Xgboost源于决策树，但是决策树过拟合风险很大，应用场景有限，在此基础上诞生了随机森林，随机森林采用Bagging采样+随机属性选择+模型集成的方法解决决策树易过拟合的风险，但是所有的树都是独立存在的，某一棵树并不能对下一棵树产生正的影响，在此基础上又诞生了GBDT，使森林不再是互相独立的树存在，进而成为一种有序集体决策体系。而Xgboost在GBDT的基础上更进一步，目标函数中加入正则项，进一步防止过拟合，并且引入了二阶泰勒展开，只要损失函数可导，便可自定义损失函数。可以说，XGBoost是一种集大成的机器学习算法。

3.3 参数调优

在XGBoost模型中，某些参数使用算法默认值，只对某些进行了调整：

eta：类似于学习率，通过缩减特征的权重使提升计算过程更加保守，防止过拟合max_depth：树的最大深度，树的深度越大，则对数据的拟合程度越高 subsample：用于训练模型的子样本占整个样本集合的比例，能够防止过拟合 colsample_bytree：在建立树时对特征随机采样的比例通过控制变量法（对某一参数进行调整时固定其他参数，使得该参数尽量达到最优后继续调整其他参数）进行调参.
过程如下：

3.4 交叉验证

为进一步防止过拟合，采用交叉验证，调用sklearn中的KFlod，尝试进行交叉验证，最终发现，当折数>5之后，提升效果并不明显，遂采用5折交叉验证。

四、实验结果展示

最终代码本地测试分数为0.4616，提交后线上测试如下图：

五、探索历程

首先进行了数据的初步处理，删除了高缺失率特征，填充了低缺失率特征。

初步考虑使用线性回归进行拟合，但简单尝试后效果并不理想。

改用XGBoost算法，初步调参后本地score在0.48左右。

对特征数据进一步处理，进行泛化并且重新调整了XGBoost参数，提交后score在0.475左右。

引入交叉验证，重新训练，最终score确定为0.47184

六、说明

该项目是我在初学机器学习时的一个课程作业，博客里的内容是我完整的分析过程。由于是初学，python代码可能并不是十分简洁、合理，希望大家理解。有问题的地方欢迎大家讨论。

项目的全部代码获取链接如下（创作不易，需要5个积分才能下载，也欢迎在评论区留言获取代码）：

https://download.csdn.net/download/cax1165/12660248

快来一起挖掘幸福感！——阿里云天池项目实战（附完成实践过程+代码）

一、开发环境介绍

二、数据的分析、处理

2.1 数据初步分析

●观察调查问卷

●数据可视化处理

2.2 数据的处理

●对于特征的删除

●对于特征的填充

●对于特征的泛化以及特征工程

●对于标签的修正

2.3 数据的规范化

2.3.1 归一化处理

2.3.2 one-hot 独热编码

三、训练模型的选择、调优

3.1 任务分析

3.2 模型选择

3.3 参数调优

3.4 交叉验证

四、实验结果展示

五、探索历程

六、说明

猜你喜欢