机器学习算法第十篇
主要内容:决策树算法+CART(回归树)
CART算法概念
CART(classification and regression tree) 故英文名思意:分类和回归树.
CART算法包含决策树生成和决策树剪枝两部分
CART决策生成树部分主要分为生成回归树和生成分类树
本篇主要讲生成回归树
算法目的
构建一棵可以对输入样本进行很好预测,并输出预测值的二叉决策回归树
算法前提假设
单个叶子节点所有样本的预测值与真实值之差的平方的和作为该叶子节点误差
开始推演
根据上述假设.我们可以轻松得到一个推论:
要使叶子节点的误差最小,我们应该让叶子节点上的所有样本的输出值的平均数作为该叶子节点的预测值
因为这样可以使误差最小
那么当需要划分的时候如何分才能达到全树误差最小呢?
CART回归树采用的算法是
(1)将节点里(最开始为根节点)所有样本的输出y拿出来做遍历
(2)当遍历到某值即y=p的时候,将小或等于该输出值即
的所有样本放入
子集,其余放
子集
(3)计算
子集的误差与
子集的误差的和
,并记录(误差计算方法为上述假设内容)
(4)当遍历完之后,找到最小的
,即
,并按照得到该
的划分方法实施子集的划分,建立子左右孩子节点
(5)重复(1)-(4),直到满足停止条件为止