模型建立流程

数据预处理:

当接收到数据以后,我们应该使用print(pdData.describe())观察数据,是否有缺失值,使用pdData.head()方法,去查看有哪些特征值进行数值转换,将字符串变成0,1。

数据缺失:数值型采用均值填充,字符串型采用众数填充。pdData["Age"].fillna(pdData["Age"].median());  

数值转换:pdData.loc(pdData["Sex"]=="male","Sex")=0   使用print(pdData["Sex"].unique())查看"Sex"特征值


数据二分类:选择数值型的变量作为特征,判断目标值

线性回归解决问题:

 首先导入sklearn库中的LinearRegression和交叉验证cross_validation模块的KFold库

 1.创建特征数组 2.获得LinearRegression对象alg 3.利用KFold创建对象,需要传入数据总行数pdData.shape[0]

以及交叉验证次数

 4.使用for循环,遍历kfold中的训练和测试集 5.获取预测的测试集和预测的结果集 6.使用fit()方法进行训练

7.使用predict()预测

随机森林解决问题:

 导入cross_validation中的KFold和RendomForestClassifier

 1.创建特征数组 2.获得随机森林分类器对象alg 3.交叉验证的对象kf 4.使用cross_val_score()获得结果。

参数的选择:

 使用GridSearchCV这个库

 1.创建随机树参数字典 2.GridSearchCV()创建对象grid 3.使用fit() 4.输出结果

特征选择:

 判断每个特征对结果的影响

 

 


猜你喜欢

转载自blog.csdn.net/zxf792010343/article/details/79191553
今日推荐