机器学习代码实战——决策树(预测泰坦尼号船员生存情况)

1.实验目的

1、建立决策树模型以根据某些参数预测泰坦尼克号人是否得以生存
2、在泰坦尼克数据中,使用以下各列构建一个模型来预测人是否可以生存
(1)Pclass
(2)Sex
(3)Age
(4)Fare
3、计算模型得分

泰坦尼克数据
密码:8azq

2.数据预处理

import pandas as pd

df = pd.read_csv('titanic.csv')   #读取数据
df.head()    #打印前5条数据检查是否读取成功
df.drop(['PassengerId','Name','SibSp','Parch','Ticket','Cabin','Embarked'],axis='columns',inplace=True)  #删除不要的特征

inputs = df.drop('Survived',axis='columns')   #特征
target = df.Survived    #标签

inputs.Sex = inputs.Sex.map({'male':1,'female':2})  #特征数字化
inputs.Age = inputs.Age.fillna(inputs.Age.mean())   #Nan值转化为平均值

在这里插入图片描述

3.导入必要模块

from sklearn.model_selection import train_test_split  #train_test_split用以拆分训练集与测试集
from sklearn import tree  

4.训练+计算模型得分

x_train,x_test,y_train,y_test = train_test_split(inputs, target,test_size=0.2)
model = tree.DecisionTreeClassifier()   #调用决策树分类器
model.fit(x_train, y_train)   #用训练集训练模型
model.score(x_test, y_test)   #用测试集计算模型预测准确率

得分如下:
在这里插入图片描述

发布了195 篇原创文章 · 获赞 566 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_37763870/article/details/105339444