初级算法梳理--决策树

学习内容:

1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景

3. 回归树原理

4. 决策树防止过拟合手段

5. 模型评估

6. sklearn参数详解,Python绘制决策树

1、信息论基础

1.1 熵

信息的定义为,如果待分类的事务可能划分在多个分类之中,则符号\large x_{i}的信息定义为:

\large l(x_{i})=-logp(x_{i}),底数为2,其中\large p(x_{i})是选择该分类的概率。

熵定义为信息的期望值,需要计算所有类别所有可能值包含的信息期望值:

1.2 联合熵

没看懂

1.3 条件熵

\large H(X,Y)-H(X)=-\sum_{x,y} p(x,y)lnp(y|x)

1.4 信息增益

在划分数据集之前之后信息发生的变化,称为信息增益。

1.5 基尼不纯度

从一个数据集中随机选取子项,度量其被错误分类到其它分组里的概率。

2、决策树的不同分类算法

算法

原理

应用场景

ID3算法

使用信息增益生成决策树

分类

C4.5

使用信息增益比生成决策树

分类、连续值与缺失值处理

CART分类树

基尼指数

既可用于分类也可用于回归

3、回归树原理

4、决策树防止过拟合手段

剪枝,降低复杂度,解决过拟合

5、模型评估

分类准确率

6、sklearn参数详解

基于默认的方法:

criterion  用来分裂节点的指标,默认为‘gini’,即基尼指数
splitter  拆分策略,一般都默认‘best’

max_depth 最大深度

min_samples_split 对于中间节点分裂的最少样本数

min_samples_leaf 叶子节点的最少样本数

max_features 最大特征数目

min_weight_fraction_leaf  叶子节点站的比重

一般而言 深度与叶子节点数量是互斥控制的。

7、python绘制决策树

猜你喜欢

转载自blog.csdn.net/l422380631/article/details/89000788