随机森林算法:原理、实例应用(沉船幸存者预测)附python完整代码和数据集

各位同学好,今天我和大家分享一下python机器学习的随机森林算法。主要内容有:

(1) 算法原理、(2) sklearn实现随机森林、(3) 泰坦尼克号沉船幸存者预测。

文末附python完整代码和数据集。那我们开始吧。


1. 随机森林算法原理

集成算法包含(bagging装袋/boosting增强/stacking堆叠),其中随机森林属于bagging。

算法原理

        随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。利用相同的训练数搭建多个独立的分类模型,然后通过投票的方法,以少数服从多数原则作出最终的分类决策。

例如:训练了5个树,其中4个树的结果是True,1个树的结果是False,最终结果也会是True。

学习算法:

若用N表示训练用的样本个数,M表示特征数目。输入特征数目m,用于确定决策树上一个节点的决策结果,其中m远小于M。

从N个训练样本中以有放回抽样的方法,取样M次,形成一个训练集,并用未抽到的样本做预测,评估其误差。

对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征决定的。根据这m个特征,计算其最佳的分裂方式。

随机抽样训练集的原因:

如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的。

为什么有放回地抽样:

如果不进行有放回抽样,那么每棵树的训练集都是完全不相同的,都是没有交集的,每棵树训练出来都是有很大差异,而随机森林最后分类取决于多棵树的投票。


2. 随机森林算法实战

2.1 sklearn实现随机森林

首先从sklearn中导入随机森林分类器:

from sklearn.ensemble import RandomForestClassifier  

随机森林函数 RandomForestClassifier()  参数设置:

n_estimator:整数类型,森林里树木的数量,默认=10

criterion:字符串型,分割特征的测量方法,默认是'Gini',可选信息熵 'entropy'

max_depth:整数或None,树的最大深度,默认是None

bootstrap:布尔,是否采用有放回抽样,默认是True


2.2 实例应用

随机森林算法和决策树算法在程序上有类似部分,该篇文章就不再赘述,如果以下程序语句有不明白的,可以参考上一篇文章,使用的数据集也相同:【机器学习】(5) 决策树算法实战:sklearn实现决策树,实例应用(沉船幸存者预测)附python完整代码及数据集

(1)导入数据

        导入泰坦尼克号乘客数据,数据集获取地址:GitHub - fayduan/Kaggle_Titanic: the data and ipython notebook of my attempt to solve the kaggle titanic problem,数据包含891个样本,10项特征数据姓名、年龄、船舱等,一项目标数据'survived'。


  
  
   
   
  1. #(1)导入数据
  2. import pandas as pd
  3. filepath = 'C:\\Users\\admin\\.spyder-py3\\test\\文件处理\\泰坦尼克数据集\\taitan.csv'
  4. data = pd.read_csv(filepath)

(2)数据预处理

        从原数据中提取五项指标作为特征值,便于大家对随机森林算法有更直观的理解。由于暂时文章没有涉及到特征工程,暂且不把所有的特征值放入模型,后续文章会进行跟深入的探讨。

        使用年龄的平均值并借助.fillna()函数填充age特征中的缺失值,划分出建模所需的数据验证模型所需的数据


  
  
   
   
  1. # 提取部分特征值,船舱、年龄、性别、非直系亲属数量、直系亲属数量
  2. data_features = data[[ 'Pclass', 'Age', 'Sex', 'SibSp', 'Parch']]
  3. # 提取Survived列所谓目标值
  4. data_targets = data[ 'Survived']
  5. # 年龄均值填充年龄缺失值
  6. data_features.fillna(data_features[ 'Age'].mean(),inplace= True)
  7. # 取出最后10行用于结果验证
  8. data_predict_features = data_features[- 10:] #输入预测函数的特征值
  9. data_predict_targets = data_targets[- 10:] #验证预测结果的目标值
  10. # 将建模数据删除最后10行
  11. data_features = data_features[:- 10] #建模所需的特征值x
  12. data_targets = data_targets[:- 10] #建模所需的目标值y

(3)特征提取

        由于特征sex对应的数据是'female''male',属于字符串类型数据,然而模型训练函数.fit()只能接收数值类型的数据,因此需要将特征值转换成sparse数值矩阵。之前我们提到过文本特征提取方法CountVectorizer(),这里我们使用字典特征提取方法DictVectorizer(),要求输入的参数是一个由字典组成的列表,而现在的特征值是一个DataFrame类型数据;返回值是sparse数值矩阵,将字符串类型数据转变成数值类型。

使用 .to_dict(orient = 'record') 方法将DataFrame类型数据转变成由字典组成的列表

有关sparse矩阵文本特征抽取的知识见下文的第1.4小节:

【机器学习】(2) 朴素贝叶斯算法:原理、实例应用(文档分类预测)附python完整代码及数据集


  
  
   
   
  1. #(3)特征抽取
  2. # 特征值Sex对应的值是字符串类型的数据,然而最终的预测函数的输入值是数值类型
  3. # 文本类型转化成数值类型,利用字典特征抽取方法
  4. from sklearn.feature_extraction import DictVectorizer #导入字典特征抽取方法
  5. vect = DictVectorizer()
  6. # 由于vect.fit_transform()方法只能接受由字典构成的列表
  7. # 对特征值进行转换,从DataFrame数据到字典构成的列表
  8. data_features = data_features.to_dict(orient = 'record')
  9. # 传入文本转数值类型方法的函数,变成sparse矩阵
  10. data_features = vect.fit_transform(data_features)
  11. # 同理,也要对最后的预测输入值,也转换成sparse矩阵
  12. data_predict_features = data_predict_features.to_dict(orient = 'record')
  13. data_predict_features = vect.fit_transform(data_predict_features)

sparse矩阵如下图所示:索引3对应female,索引4对应male,将性别转换成数值类型,索引3表示,是否是'female',是就显示1,不是显示0。

(4)划分训练集和测试集

         一般采用75%的数据用于训练,25%用于测试,因此把数据进行训练之前,先要对数据划分。划分方法不再赘述,有疑惑的可看下文中的第2.3节:【机器学习】(2) 朴素贝叶斯算法:原理、实例应用(文档分类预测)附python完整代码及数据集


  
  
   
   
  1. #(4)划分测试集和训练集
  2. from sklearn.model_selection import train_test_split
  3. # 传入建模所需的特征值数据和目标值数据
  4. x_train,x_test,y_train,y_test = train_test_split(data_features,data_targets,test_size= 0.25)

(5) 随机森林方法

变量 rf 接收随机森林分类器 RandomForestClassifier()随机森林分类器的参数同决策树的参数,这里就不赘述,具体见下文的第1节:

【机器学习】(5) 决策树算法实战:sklearn实现决策树,实例应用(沉船幸存者预测)附python完整代码及数据集

训练函数 .fit() 中传入训练所用的x和y值,其中x_train是sparse数值矩阵,accuracy存放评分法 .score() 求得的模型误差,根据x_test预测结果,把结果和真实的y_test比较,计算准确率。result中存放预测函数 .predict() 得到的人员存活结果,预测函数的输入值data_predict_features也是sparse数值类型矩阵。


  
  
   
   
  1. #(5)随机森林方法
  2. from sklearn.ensemble import RandomForestClassifier #导入随机森林分类器
  3. # 接收随机森林方法
  4. rf = RandomForestClassifier() #使用默认值
  5. # 函数参数同决策树参数
  6. # 训练,传入训练用的特征值和目标值
  7. rf.fit(x_train,y_train)
  8. # 评分法,计算准确率
  9. accuracy = rf.score(x_test,y_test)
  10. # 预测,输入预测所需的特征值
  11. result = rf.predict(data_predict_features)

最终模型准确率在80%左右,预测结果和实际结果见稍有偏差。


数据集获取:

GitHub - fayduan/Kaggle_Titanic: the data and ipython notebook of my attempt to solve the kaggle titanic problem

完整python代码:


  
  
   
   
  1. # 随机森林--泰坦尼克号获救预测
  2. #(1)导入数据
  3. import pandas as pd
  4. filepath = 'C:\\Users\\admin\\.spyder-py3\\test\\文件处理\\泰坦尼克数据集\\taitan.csv'
  5. data = pd.read_csv(filepath)
  6. #(2)数据预处理
  7. # 提取部分特征值,船舱、年龄、性别、非直系亲属数量、直系亲属数量
  8. data_features = data[[ 'Pclass', 'Age', 'Sex', 'SibSp', 'Parch']]
  9. # 提取Survived列所谓目标值
  10. data_targets = data[ 'Survived']
  11. # 年龄均值填充年龄缺失值
  12. data_features.fillna(data_features[ 'Age'].mean(),inplace= True)
  13. # 取出最后10行用于结果验证
  14. data_predict_features = data_features[- 10:] #输入预测函数的特征值
  15. data_predict_targets = data_targets[- 10:] #验证预测结果的目标值
  16. # 将建模数据删除最后10行
  17. data_features = data_features[:- 10] #建模所需的特征值x
  18. data_targets = data_targets[:- 10] #建模所需的目标值y
  19. #(3)特征抽取
  20. # 特征值Sex对应的值是字符串类型的数据,然而最终的预测函数的输入值是数值类型
  21. # 文本类型转化成数值类型,利用字典特征抽取方法
  22. from sklearn.feature_extraction import DictVectorizer #导入字典特征抽取方法
  23. vect = DictVectorizer()
  24. # 由于vect.fit_transform()方法只能接受由字典构成的列表
  25. # 对特征值进行转换,从DataFrame数据到字典构成的列表
  26. data_features = data_features.to_dict(orient = 'record')
  27. # 传入文本转数值类型方法的函数,变成sparse矩阵
  28. data_features = vect.fit_transform(data_features)
  29. # 同理,也要对最后的预测输入值,也转换成sparse矩阵
  30. data_predict_features = data_predict_features.to_dict(orient = 'record')
  31. data_predict_features = vect.fit_transform(data_predict_features)
  32. # 观察sparse矩阵
  33. # 查看sparse矩阵特征值名
  34. feature_names = vect.get_feature_names()
  35. # 将sparse矩阵变成列表形式,便于观察
  36. feature_array = data_features.toarray()
  37. #(4)划分测试集和训练集
  38. from sklearn.model_selection import train_test_split
  39. # 传入建模所需的特征值数据和目标值数据
  40. x_train,x_test,y_train,y_test = train_test_split(data_features,data_targets,test_size= 0.25)
  41. #(5)随机森林方法
  42. from sklearn.ensemble import RandomForestClassifier #导入随机森林分类器
  43. # 接收随机森林方法
  44. rf = RandomForestClassifier() #使用默认值
  45. # 函数参数同决策树参数
  46. # 训练,传入训练用的特征值和目标值
  47. rf.fit(x_train,y_train)
  48. # 评分法,计算准确率
  49. accuracy = rf.score(x_test,y_test)
  50. # 预测,输入预测所需的特征值
  51. result = rf.predict(data_predict_features)

猜你喜欢

转载自blog.csdn.net/qq_15719613/article/details/129167658