分类决策树学习笔记

1.基本概念
决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

2.决策树的构造
构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：
1）属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。
2）属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两分支
3）属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

构造决策树的关键性内容是进行属性选择度量，属性选择度量是一种选择分裂准则，是将给定的类标记的训练集合的数据划分D“最好”地分成个体类的启发式方法，它决定了拓扑结构及分裂点split_point的选择。

3.属性选择方法

属性选择方法总是选择最好的属性作为分裂属性，即让每个分之的记录的类别尽可能纯。它将所有属性列表的属性进行按某个标准排序，从而选出最好的属性。属性选择度量算法有很多，一般使用自顶向下递归分治法，并采用不回溯的贪心策略。

3.1 ID3算法（指标：信息增益）

信息增益基于香浓的信息论，它找出的属性R具有特点：以该属性R分裂前后的信息增益最大。这里的信息定义如下：

其中的m表示数据集 D中类别C的个数，Pi表示D中任意一个记录属于Ci的概率，计算时Pi=(D中属于Ci类的集合的记录个数/|D|)。Info(D)表示将数据集D不同的类分开需要的信息量。
　　如果了解信息论，就会知道上面的信息Info实际上就是信息论中的熵Entropy，熵表示的是不确定度的度量，如果某个数据集的类别的不确定程度越高，则其熵就越大。比如我们将一个立方体A抛向空中，记落地时着地的面为f1，f1的取值为{1,2,3,4,5,6}，f1的熵entropy(f1)=-(1/6*log(1/6)+...+1/6*log(1/6))=-1*log(1/6)=2.58；现在我们把立方体A换为正四面体B，记落地时着地的面为f2，f2的取值为{1,2,3,4}，f2的熵entropy(1)=-（1/4*log(1/4)+1/4*log(1/4)+1/4*log(1/4)+1/4*log(1/4)) =-log(1/4)=2；如果我们再换成一个球C，记落地时着地的面为f3，显然不管怎么扔着地都是同一个面，即f3的取值为{1}，故其熵entropy(f3)=-1*log(1)=0。可以看到面数越多，熵值也越大，而当只有一个面的球时，熵值为0，此时表示不确定程度为0，也就是着地时向下的面是确定的。
　　有了上面关于熵的简单理解，我们接着讲信息增益。假设我们选择属性R作为分裂属性，数据集D中，R有k个不同的取值{V1,V2,...,Vk}，于是可将D根据R的值分成k组{D1,D2,...,Dk}，按R进行分裂后，将数据集D不同的类分开还需要的信息量为：

　　信息增益的定义为分裂前后，两个信息量只差：

　　信息增益Gain(R)表示属性R给分类带来的信息量，我们寻找Gain最大的属性，就能使分类尽可能的纯，即最可能的把不同的类分开。不过我们发现对所以的属性Info(D)都是一样的，所以求最大的Gain可以转化为求最小的Info R (D)。这里引入Info(D)只是为了说明背后的原理，方便理解，实现时我们不需要计算Info(D)。举一个例子，数据集D如下：

记录ID 年龄输入层次学生信用等级是否购买电脑

1 青少年高否一般否

2 青少年高否良好否

3 中年高否一般是

4 老年中否一般是

5 老年低是一般是

6 老年低是良好否

7 中年低是良好是

8 青少年中否一般否

9 青少年低是一般是

10 老年中是一般是

11 青少年中是良好是

12 中年中否良好是

13 中年高是一般是

14 老年中否良好否

　　这个数据集是根据一个人的年龄、收入、是否学生以及信用等级来确定他是否会购买电脑，即最后一列“是否购买电脑”是类标。现在我们用信息增益选出最最佳的分类属性，计算按年龄分裂后的信息量：

　　整个式子由三项累加而成，第一项为青少年，14条记录中有5条为青少年，其中2（占2/5）条购买电脑，3（占3/5）条不购买电脑。第二项为中年，第三项为老年。类似的，有：

　　可以得出Info年龄(D)最小，即以年龄分裂后，分得的结果中类标最纯，此时已年龄作为根结点的测试属性，根据青少年、中年、老年分为三个分支：

　　注意，年龄这个属性用过后，之后的操作就不需要年龄了，即把年龄从attributeList中删掉。往后就按照同样的方法，构建D1,D2,D3对应的决策子树。ID3算法使用的就是基于信息增益的选择属性方法。

3.2 C4.5算法（指标：增益比率gain ratio）

　　信息增益选择方法有一个很大的缺陷，它总是会倾向于选择属性值多的属性，如果我们在上面的数据记录中加一个姓名属性，假设14条记录中的每个人姓名不同，那么信息增益就会选择姓名作为最佳属性，因为按姓名分裂后，每个组只包含一条记录，而每个记录只属于一类（要么购买电脑要么不购买），因此纯度最高，以姓名作为测试分裂的结点下面有14个分支。但是这样的分类没有意义，它没有任何泛化能力。增益比率对此进行了改进，它引入一个分裂信息：

　　增益比率定义为信息增益与分裂信息的比率：

　　我们找GainRatio最大的属性作为最佳分裂属性。如果一个属性的取值很多，那么SplitInfoR(D)会大，从而使GainRatio(R)变小。不过增益比率也有缺点，SplitInfo(D)可能取0，此时没有计算意义；且当SplitInfo(D)趋向于0时，GainRatio(R)的值变得不可信，改进的措施就是在分母加一个平滑，这里加一个所有分裂信息的平均值：

ID3和C4.5算法训练决策分类树的过程：

样本训练集记为D，样本特征集记为F，生成的决策树记为T，信息增益阈值记为t：

（1）从根节点开始，样本集全部分配在根节点；

（2）若D中所有样本都属于同一类，则将该类所谓该节点的类标记，并返回训练好的决策树T；

（3）若特征集F为空集（特征被用完了），则将D中样本数最大的类作为该节点的类标记，并返回T；

（4）计算特征集F中个特征对D的信息增益，选择信息增益最大的特征Fg；若果特征Fg的信息增益小于阈值t，那么将D中样本数最大的类作为该节点的类标记，并返回决策树T；

（5）依据特征Fg的每一个可能值aj，将D分割成若干个非空子集Di，并将Di中样本数最大的类作为类标记构建子结点，由节点跟子节点组成决策树T，并返回T；

（6）对于第k个子节点，以Di为训练集，以F-{Fg}作为新的特征集，递归地调用（2）~（5），得到子树Ti，返回T。

3.3 CART算法（指标：基尼指数Gini index）

　　基尼指数是另外一种数据的不纯度的度量方法，其定义如下：

其中的m仍然表示数据集D中类别C的个数，Pi表示D中任意一个记录属于Ci的概率，计算时Pi=(D中属于Ci类的集合的记录个数/|D|)。如果所有的记录都属于同一个类中，则P1=1，Gini(D)=0，此时不纯度最低。在CART( Classification and Regression Tree)算法中利用基尼指数构造二叉决策树，对每个属性都会枚举其属性的非空真子集，以属性R分裂后的基尼系数为：

　D1为D的一个非空真子集，D2为D1在D的补集，即D1+D2=D，对于属性R来说，有多个真子集，即GiniR(D)有多个值，但我们选取最小的那么值作为R的基尼指数。最后：

　　我们选取Gini(R)增量最大的属性作为最佳分裂属性。

CART算法训练决策分类树的过程：

（1）设节点的训练数据集为D，计算现有特征对该数据集的基尼指数，此时对每一个特征F，对其可能取的每个值aj，根据样本点，根据样本点对F=aj的测试为“是”或“否”将D分为D1和D2两部分，计算F=aj的基尼指数。

（2）在所有可能的特征F以及它们所有可能的切分点aj中，选择基尼指数最小的特征及其对应的切分点作为最优特征和最优切分点。根据最优特征和最优切分点，从现节点生成两个子结点，将训练集依特征分配到两个子结点中去。

（3）对两个子结点递归地调用（1）和（2），直至满足停止条件。

（4）生成CART决策树。

对于（3）中提到的停止条件，一般是结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值（也就是样本基本属于同一类），或者没有更多特征。

以上转载整理自：

http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html

http://www.cnblogs.com/fengfenggirl/p/classsify_decision_tree.html

http://blog.csdn.net/dream_catcher_10/article/details/45155769

记录ID	年龄	输入层次	学生	信用等级	是否购买电脑
1	青少年	高	否	一般	否
2	青少年	高	否	良好	否
3	中年	高	否	一般	是
4	老年	中	否	一般	是
5	老年	低	是	一般	是
6	老年	低	是	良好	否
7	中年	低	是	良好	是
8	青少年	中	否	一般	否
9	青少年	低	是	一般	是
10	老年	中	是	一般	是
11	青少年	中	是	良好	是
12	中年	中	否	良好	是
13	中年	高	是	一般	是
14	老年	中	否	良好	否

分类决策树学习笔记

猜你喜欢