机器学习学习笔记 --- 树回归基本概念

版权声明:学习交流为主,未经博主同意禁止转载,禁止用于商用。 https://blog.csdn.net/u012965373/article/details/88672662

树的构建算法 CART(Classification And Regression Trees, 分类回归树)的树构建算法。该算法可以用来分类也可以用来回归。

树回归 原理

原理概述

为了构建以分段常数为叶节点的树,需要度量出数据的一致性。

首先计算所有数据的均值,然后计算每条数据的值到均值的差值。为了对正负差值同等看待,一般用绝对值或者平方值来代替上述差值。

方差是平方误差的均值(均方差),而这里需要的是平方误差的总值(总方差)。总方差是通过均方差乘以数据集中样本点的个数来得到的。

树构建算法 比较

1.ID3 -> 每次选取当前最佳的特征来分隔数据,并按照该特征的所有可能值来切分。

2.二分切分法 -> 每次切分将数据集分成两份。如果数据的某特征等于切分所要求的值,那么这些数据进入树的左子树,反之进入右子树。

3.Cart切分 -> 是一种非常著名且广泛记载的构建树的算法,它使用二元切分来处理连续型变量。

构建决策树常用到的三个方法:

ID3, C4.5, CART 三种方法的主要区分是划分分支方法:

1.ID3是信息增益的分支

2.C4.5是信息增益率的分支

3.CART是GINI系数分支

树回归工作原理:

对每个特征:

        对每个特征值:

                将数据集切分成两份(小于该特征的数据样本放在左子树,否则放在右子树)

                计算切分的误差

                如果当前误差小于当前的最小误差,那么当前切分设定为最佳切分并更新最小误差

返回最佳切分的特征和阈值

建树的伪代码:

找到最佳的待切分特征:

        如果该节点不能再分,将该节点存为叶子节点

        执行二元切分

        在右子树调用 createTree() 方法

        在左子树调用 createTree() 方法

树回归开发流程:

1.收集数据

2.准备数据

3.分析数据

4.训练算法

5.测试算法

6.使用算法

猜你喜欢

转载自blog.csdn.net/u012965373/article/details/88672662