第六章-6.1决策树

图1
对上决策树,采用C4.5进行裁剪。

通常C4.5采用C=25%的置信度来计算,对应的置信度标准差z=0.69,。对于误差率e的估计为:

                                    

其中,f为误差率f=E/N,E为错误分类数量,N为总数。

则有,图1中,健康计划-None的分支有4个bad(错误分类),2个good(正确分类),f=0.33,e=0.47;同理,健康计划-Half和健康计划-full的误差率e分别为0.72和0.47。组合误差率为:0.47*6/14+0.72*2/14+0.47*6/14=0.51。训练集健康计算共有9个bad(错误分类),5个good(正确分类),e为0.46,小于组合误差,因而节点被裁剪掉。

猜你喜欢

转载自blog.csdn.net/lyn5284767/article/details/80278085
今日推荐