基于Breast Cancer dataset的决策树分类及可视化

Task description:

Use the decision tree for classification based on Breast cancer dataset available at https://www.kaggle.com/uciml/breast-cancer-wisconsin-data. 

基于Python的可视化参考:DT可视化工具graphviz,python接口工具为pydotplus,需要提前安装graphviz并添加PATH到环境变量中,之后利用pydotplus可视化sklearn中的DT结果。http://sklearn.apachecn.org/cn/0.19.0/modules/tree.html#tree-algorithms

Graphviz 不能通过 pip 直接安装,需要手动在官网下载并安装:https://graphviz.gitlab.io/about/并添加到环境变量。pydotplus可以通过pip安装。

1:首先需要获得Breast Cancer dataset数据集,在kaggle上获取该数据集需要翻墙,该数据解压后为csv格式

2:使用pandas.read_csv()来读入数据,并查看数据的前五项条目

3:查看数据的具体信息,一共有32列(其中第二列diagnosis为标签,其他列为特征),569行,发现有一列为空列你并将其删除

4:将数据调整成sklearn能够传入的格式,即将特征值和标签分离,然后将训练和测试数据按照7:3的比例划分

5:sklearn模型运算分为三步:调用模型,训练模型,评价模型

     先使用默认参数对模型进行初步的训练,并使用cross_score对模型进行评估

6:使用网格搜索调整参数

7:将训练得到的最佳参数导入模型

8:利用graphviz对决策树进行可视化

猜你喜欢

转载自www.cnblogs.com/chance-zou/p/11625960.html