2.3.1 决策树原理

版权声明:时间是有限的,知识是无限的,那就需要在有限的时间里最大化的获取知识。 https://blog.csdn.net/Fire_to_cheat_/article/details/84889952

1. 决策树 概念须知

信息熵&信息增益

  • 熵:熵(entropy)指的是体系的混乱程度,在不同的学科中也有引申出更加具体的定义。

  • 信息熵(香农熵): 是一种信息的度量方式,表示信息的混乱程度,也就是说,信息越有序,信息熵越低。例如:火柴有序放在火柴盒里,熵值很低,相反,熵值很高。

  • 信息增益: 在划分数据集前后信息发生的变化称为信息增益。

2. 决策树 工作原理

如何构造一个决策树?
我们使用 createBranch() 方法,如下所示:

检测数据集中的所有数据的分类标签是否相同:
    If so return 类标签
    Else:
        寻找划分数据集的最好特征(划分之后信息熵最小,也就是信息增益最大的特征)
        划分数据集
        创建分支节点
            for 每个划分的子集
                调用函数 createBranch (创建分支的函数)并增加返回结果到分支节点中
        return 分支节点

3. 决策树 开发流程

收集数据:可以使用任何方法。
准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。
分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。
训练算法:构造树的数据结构。
测试算法:使用经验树计算错误率。(经验树没有搜索到较好的资料,有兴趣的同学可以来补充)
使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。

4. 决策树 算法特点

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。

5. 决策树 项目案例

5.1 判定鱼类和非鱼类

5.2 使用决策树预测隐形眼镜

猜你喜欢

转载自blog.csdn.net/Fire_to_cheat_/article/details/84889952
今日推荐