机器学习算法笔记--------决策树

版权声明:版权归本作者所有,如需转载请务必注明出处及作者 https://blog.csdn.net/qq_35654046/article/details/84565880

摘要

决策树包含三个主要过程:特征选择,决策树生成,决策树剪枝。
其核心思想是计算集合无序程度,主要算法有ID3,C4.5和CART

背景知识

  • 信息熵

假设变量X的可能取值为Xi,i=1,2,……,n。变量X取值为Xi的概率为:

 P(X=X_{i} )=P_{i} (i = 1, 2,..., n)

那么随机变量X的信息熵为:

H(X)=-\sum _{i=1}^{n}P_{i}*log_{2}(P_{i})

  • 条件熵

变量Y在给定条件X下的信息熵:

H(Y|X)=\sum _{i=1}^{n}P_{i}*H(Y|X_{i})

  • 信息增益

定义:特征A对训练数据集D的信息增益,g(D,A), 定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。

g(D,A)=H(D)-H(D|A)

  • 信息增益比
  • 基尼不纯度

这里,Ck是样本集合D中属于第k类的样本子集,K是类的个数。

Gini(D)=1-\sum _{k=1}^{K}(\frac{|C_{k}|}{|D|})^{2}

特征选择方法

  •  信息增益(ID3)
  •  信息增益比(C4.5)
  •  基尼不纯度(CART)

决策树生成

  •  ID3 -- Quinlan, J. R. 1986. Induction of Decision Trees. Mach. Learn. 1, 1 (Mar. 1986), 81–106
  •  C4.5
  • CART

决策树剪枝

作用:相当于优化了损失函数,引入了正则项。决策树学习过程,本质上是从训练数据集中归纳出一套分类规则

  • 预剪枝
  • 后剪枝

优缺点

  • 优点:计算复杂度低,允许数据不进行归一化,有缺失值,并有一定的容错能力。
  • 缺点:容易过拟合。由于搜索过程没有回溯,所以容易陷入局部最优。

决策树的扩展

  • 处理不同代价的属性:结合特征所需代价进行特征选择,用信息增益除以特征代价。(例如医学诊断,先选择代价低的化验方式)
  • 处理缺失值:按照特征值出现的概率补全数据。

例子(西瓜数据集2.0)​​​​​​​

样本集信息熵:

Ent(D)=-(\frac{8}{17}*\log _{2}\frac{8}{17}+\frac{9}{17}*\log _{2}\frac{9}{17})=0.998

参考资料:

  • 统计学习方法-李航
  • 机器学习-周志华
  • 机器学习-Mitchell
     

猜你喜欢

转载自blog.csdn.net/qq_35654046/article/details/84565880