决策树详解(二)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/LEE18254290736/article/details/81843131

我们根据样本响应值是类的形式还是数值的形式,把决策树分为分类树与回归树。

表示特征属性的形式,也分为类的形式或者数值形式。

什么是表示特征属性的形式:

        决定今晚是否约妹子,取决于两个条件:1.你约妹子的决心:不想约,有点想,一般想,十分想。四个等级。

                                                                                           这就是类的形式。

                                                                         2.你钱包里有多少钱:20,100还是5000.

                                                                                            这就是数值形式。

在分析样本特征属性时,我们把决策树分为四类:

1.特征为类的分类树(约妹子的决心)

2.特征为数值的分类树(约妹子钱包的money)

3.特征为类的回归树

4.特征为数值的回归树

特征形式不同,计算方法不同。

1.特征为类的分类树:

 对于样本的分类(响应值)只有两种情况,响应值为0或1.按照特征属性的类别的样本响应值为1的数量多少进行排序

例如我们对于约妹子出去玩进行10次邀请样本,以此来构建约妹分类树,十分想4次,一般想3次,有点想2次,不想约1次。

对其进行排序:十分想  >  一般想  >  有点想  >  不想约.

之后按照这个顺序把二叉树分为左分支与右分支。

代入该公式,

求其最大值,(此公式定义解释,第十二个公式:https://blog.csdn.net/LEE18254290736/article/details/81842816

这样就能求出其分叉方式,

先把不想约放入左分支,其余的放入右分支。代入上式,求得A;

再把不想约与有点想放入左分支,其余的放入右分支。代入上式,求得B;

再把不想约,有点想,一般想放入左分支,其余的放入右分支。代入上式,求得C;

比较A,B,C。若最大值为C,则按照C的方式进行划分,其阈值β可以设置为3,对于非两类问题,可以采用聚类的方法。

2.特征为数值的分类树:

由于特征属性是用数值进行表示,我们就按照数值的大小顺序依次代入

以此来计算最大值。

例如有十个样本,依次为ABCDEFGHIJ,第一次分布为:

代入上式计算其值。

然后把AB放入左分支,计算其值:

以此类推,直到最后:

得到这9次的分支的最大值,该种分叉方式即为最佳的分叉方式,其中阈值β为分叉的次数。

3.特征为类的回归树:

计算每种特征属性各个种类的平均样本响应值,按照该值的大小进行排序,然后依次代入

,计算其最大值。

4.特征为数值的回归树:

该种情况与特征为数值的分类树相同,就按照数值的大小顺序依次代入式,计算最大值。

猜你喜欢

转载自blog.csdn.net/LEE18254290736/article/details/81843131
今日推荐