基尼值和基尼指数

CART 决策树 [Breiman et al., 1984] 使用"基尼指数" (Gini index)来选择划分属性。CART 是Classification and Regression Tree的简称,这是一种著名的决策树学习算法,分类和回归任务都可用。

一、基尼值和基尼指数

基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率。故,Gini(D)值越小,数据集D的纯度越高。

数据集 D 的纯度可用基尼值来度量:

                                                            

其中:

基尼指数Gini_index(D):一般,选择使划分后基尼系数最小的属性作为最优化分属性。

                                                             

二、案例

请根据下图列表,按照基尼指数的划分依据,做出决策树。

1,对数据集非序列标号属性{是否有房,婚姻状况,年收入}分别计算它们的Gini指数,取Gini指数最小的属性作为决策树的根节点属性。

扫描二维码关注公众号,回复: 13067735 查看本文章

2、第二次大循环

3、经过如上流程,构建的决策树,如下图:

现在总结一下CART的算法流程

while(当前节点"不纯"):
    1.遍历每个变量的每一种分割方式,找到最好的分割点
    2.分割成两个节点N1和N2
end while
每个节点足够“纯”为止

猜你喜欢

转载自blog.csdn.net/qq_39197555/article/details/115319647