-
CART
CART(Classification and Regression Tree),分类与回归树。CART假设决策树为二叉树,递归的二分每个特征,既可以做回归,也可以做分类。
-
回归树
损失函数采用平方误差最小化。
-
① 选择最优切分变量 、切分点 ,切分点将数据划分为 ,求解:
得出最优解
-
② 根据 划分区域 并计算其相应的输出值:
,
-
③ 继续对两个子区域重复 ① ② 步骤,直至满足条件
-
④ 将输入空间划分为 M 个区域 ,生成决策树
-
-
分类树
CART 的分类树与 ID3,C4.5 类似,但衡量最优特征的标准有差异。分类树中使用基尼指数选择最优特征,同时决定该特征的最优切分点。
-
基尼( )指数
分类问题中,假设有 个类,样本点属于第 类的概率为 ,则 ,
对于二分类问题: ,
对于样本集合 D:
-
在特征 A 条件下
表示集合 D 的不确定性; 表示经 A 划分后 D 的不确定性
选 值最小的特征。
-
-
剪枝
CART 的剪枝分为两步:① 先剪枝形成 子树序列;② 后通过交叉验证选择 最优子树。
-
决策树特点总结
本文作为决策树的第三部分,在这里对决策树的特点进行总结。
- 决策树属于非参数方法,无需先验假设;
- 最佳树属于 NP 完全问题,普遍使用贪心算法;
- 构建树的复杂度低,建立后预测的速度快;
- 相对容易解释,在简单数据集上性能也不错;
- 是学习离散值的典型算法;
- 对噪声干扰具有很好的鲁棒性;
- 冗余属性不会对精度造成不利影响;
- 大多是自顶向下划分的,数据量变少,容易过拟合;
- 因为使用分治策略,导致子树可能重复多次;
- 可看作区域划分,产生决策边界进而预测。
-
ID3,C4.5,CART 比较
- ID3 因为使用信息增益,所以偏向于取值较多的属性作为路径。而数据集中的连续型特征所具有的取值个数是非常多的,所以 ID3 也不适合处理连续性数据,对离散型特征可以适用。
- C4.5 使用信息增益率,解决了 ID3 的问题,既可以处理离散特征,也可以处理连续特征。
- CART 构建的是二叉树。假设对离散特征取值有 ,则在该属性上的划分有三种情况{{x,y},{z}},{{x,z},y},{{y,z},x}),空集和全集的划分除外;对于连续值处理引进“分裂点”的思想,假设样本集中某个属性共 个连续值,则有 个分裂点,每个“分裂点”为相邻两个连续值的均值 。既可以处理离散值也可以处理连续值,既可以用来做回归,也可以用来做分类,应用面更广。
机器学习 - 决策树(下)- CART 以及与 ID3、C4.5的比较
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_37352167/article/details/84929314
猜你喜欢
转载自blog.csdn.net/weixin_37352167/article/details/84929314
今日推荐
周排行