我们根据样本响应值是类的形式还是数值的形式,把决策树分为分类树与回归树。
表示特征属性的形式,也分为类的形式或者数值形式。
什么是表示特征属性的形式:
决定今晚是否约妹子,取决于两个条件:1.你约妹子的决心:不想约,有点想,一般想,十分想。四个等级。
这就是类的形式。
2.你钱包里有多少钱:20,100还是5000.
这就是数值形式。
在分析样本特征属性时,我们把决策树分为四类:
1.特征为类的分类树(约妹子的决心)
2.特征为数值的分类树(约妹子钱包的money)
3.特征为类的回归树
4.特征为数值的回归树
特征形式不同,计算方法不同。
1.特征为类的分类树:
对于样本的分类(响应值)只有两种情况,响应值为0或1.按照特征属性的类别的样本响应值为1的数量多少进行排序
例如我们对于约妹子出去玩进行10次邀请样本,以此来构建约妹分类树,十分想4次,一般想3次,有点想2次,不想约1次。
对其进行排序:十分想 > 一般想 > 有点想 > 不想约.
之后按照这个顺序把二叉树分为左分支与右分支。
代入该公式,
求其最大值,(此公式定义解释,第十二个公式:https://blog.csdn.net/LEE18254290736/article/details/81842816)
这样就能求出其分叉方式,
先把不想约放入左分支,其余的放入右分支。代入上式,求得A;
再把不想约与有点想放入左分支,其余的放入右分支。代入上式,求得B;
再把不想约,有点想,一般想放入左分支,其余的放入右分支。代入上式,求得C;
比较A,B,C。若最大值为C,则按照C的方式进行划分,其阈值β可以设置为3,对于非两类问题,可以采用聚类的方法。
2.特征为数值的分类树:
由于特征属性是用数值进行表示,我们就按照数值的大小顺序依次代入
以此来计算最大值。
例如有十个样本,依次为ABCDEFGHIJ,第一次分布为:
代入上式计算其值。
然后把AB放入左分支,计算其值:
以此类推,直到最后:
得到这9次的分支的最大值,该种分叉方式即为最佳的分叉方式,其中阈值β为分叉的次数。
3.特征为类的回归树:
计算每种特征属性各个种类的平均样本响应值,按照该值的大小进行排序,然后依次代入
,计算其最大值。
4.特征为数值的回归树:
该种情况与特征为数值的分类树相同,就按照数值的大小顺序依次代入式,计算最大值。