决策树（上）

1 特征选择

　　特征选择的理解：在决策树算法中，每次选择一个最优的特征来分支是最最重要的一步，那究竟如何选择这个最优的特征就变成了关键问题。对于拿到的数据中，什么类别标签的样本都有，是十分不确定的，换句话说就是十分混乱的。用数据中其中一个特征来划分数据之后，数据的混乱程度都会变小，最优的划分特征就是通过此特征划分之后数据的混乱程度变的最小的那一个特征。下面分别介绍两种选取最优划分特征的算法，信息增益和信息增益率。

2 信息增益

　　为了引出信息增益算法，首先定义出信息熵，联合熵和条件熵的概念。

　　信息熵为信息论中的概念，熵表示随机变量不确定性的度量，即信息熵越大的事物，它的不确定性就越大，对于随机变量X公式如下：

　　其中，意思是：随机变量X的取值为X_i时的概率。n为X有n种取值。

　　举个栗子，假如X的取值只有0和1，则X的分布为：

　　则X的熵为：

　　第二个概念是联合熵，设有两个随机变量X和Y，其联合熵为：

　　第三个概念是条件熵，对于条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。同时可定义为Y在给定条件X下Y的条件概率分布的熵对X的数学期望，公式如下：

　　其中p_i = P(X = x_i)，i = 1， 2， 3， ...， n。

　　下面主角就可以登场了，信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，通俗来说就是某事件的信息熵与以某个特征为条件的条件熵之差。

　　特征A对训练数据集D的信息增益g(D, A)，定义为集合D的经验熵与特征A给定条件下D的条件熵H(D|A)之差，公式为：

　　信息增益也叫互信息，决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

　　决策树学习应用信息增益的准则选择特征，给定训练数据集D和特征A，经验熵H(D)表示对数据集D进行分类的不确定性。而经条件熵H(D|A)表示在特征A给定的条件下对数据集D进行分类的不确定性，那么他们的差就是信息增益，就表示由于特征A而使得对数据集D的分类的不确定性减少的程度。显然，对于数据集D而言，信息增益依赖于特征，不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。

　　下面再次举一个栗子，每个样本有三个特征，第一个是是否有房，第二个特征是婚姻状况，有三个可能：单身，已婚，离异，第三个特征是年收入，是一个连续值，标签是是否拖欠贷款，是一个二分类问题，样本如下：

是否有房	婚姻状况	年收入	是否拖欠贷款
是	单身	125k	否
否	已婚	100k	否
否	单身	70k	否
是	已婚	120k	否
否	离异	95k	是
否	已婚	60k	否
是	离异	220k	否
否	单身	85k	是
否	已婚	75k	否
否	单身	90k	是