摘要

决策树包含三个主要过程：特征选择，决策树生成，决策树剪枝。
其核心思想是计算集合无序程度，主要算法有ID3，C4.5和CART

背景知识

信息熵

假设变量X的可能取值为Xi，i=1，2，……，n。变量X取值为Xi的概率为：

$P(X=X_{i} )=P_{i} (i = 1, 2,..., n)$

那么随机变量X的信息熵为：

$H(X)=-\sum _{i=1}^{n}P_{i}*log_{2}(P_{i})$

条件熵

变量Y在给定条件X下的信息熵：

$H(Y|X)=\sum _{i=1}^{n}P_{i}*H(Y|X_{i})$

信息增益

定义：特征A对训练数据集D的信息增益，g(D,A), 定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。

$g(D,A)=H(D)-H(D|A)$

信息增益比
基尼不纯度

这里，Ck是样本集合D中属于第k类的样本子集，K是类的个数。

$Gini(D)=1-\sum _{k=1}^{K}(\frac{|C_{k}|}{|D|})^{2}$

特征选择方法

信息增益(ID3)
信息增益比(C4.5)
基尼不纯度(CART)

决策树生成

ID3 -- Quinlan, J. R. 1986. Induction of Decision Trees. Mach. Learn. 1, 1 (Mar. 1986), 81–106
C4.5
CART

决策树剪枝

作用：相当于优化了损失函数，引入了正则项。决策树学习过程，本质上是从训练数据集中归纳出一套分类规则

预剪枝
后剪枝

优缺点

优点：计算复杂度低，允许数据不进行归一化，有缺失值，并有一定的容错能力。
缺点：容易过拟合。由于搜索过程没有回溯，所以容易陷入局部最优。

决策树的扩展

处理不同代价的属性：结合特征所需代价进行特征选择，用信息增益除以特征代价。（例如医学诊断，先选择代价低的化验方式）
处理缺失值：按照特征值出现的概率补全数据。

例子(西瓜数据集2.0)

样本集信息熵：

$Ent(D)=-(\frac{8}{17}*\log _{2}\frac{8}{17}+\frac{9}{17}*\log _{2}\frac{9}{17})=0.998$

参考资料：

统计学习方法-李航
机器学习-周志华
机器学习-Mitchell

机器学习算法笔记--------决策树

摘要

背景知识

特征选择方法

决策树生成

决策树剪枝

优缺点

决策树的扩展

例子(西瓜数据集2.0)

参考资料：

猜你喜欢

机器学习算法笔记--------决策树

摘要

背景知识

特征选择方法

决策树生成

决策树剪枝

优缺点

决策树的扩展

例子(西瓜数据集2.0)​​​​​​​

参考资料：

猜你喜欢

例子(西瓜数据集2.0)