背景知识:
Classification是一个从现有的带有类别的数据集中寻找同一类别数据的共同特征,并以这些特征为依据对新数据进行区分的过程。
分类决策树的核心思想就是在一个数据集中找到一个最优特征,然后从这个特征的选值中找一个最优候选值(这段话稍后解释),根据这个最优候选值将数据集分为两个子数据集,然后递归上述操作,直到满足指定条件为止。
用途:
决策树技术主要用来进行分类和预测,以实例为基础的归纳学习算法,用来形成分类器和预测模型。
树的最顶层节点称为根节点,最底层节点称为叶节点,每个叶节点代表产生样本的类别或者类分布;根节点和叶节点之间的节点称为内部节点。
决策树算法:
1.ID3算法
ID3算法是一种基于信息熵的决策树学习算法,它是决策树算法中的典型算法,采用分治策略,在决策树各级节点上选择属性时检测所有属性,选择信息增益最大的属性作为产生决策树的节点。由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树的分支,直到所有子集仅包含同一类别数据为止,最后得到一颗决策树,他可以对新的样本进行分类。
那么什么是决策树,-
决策树中属性值时离散的。比如体检测量中人的升高或者三维时离散的。连续的比如(1,2,3,4,5)这个时连续的。
ID3适用于取值较多的属性,而多数情况下多值属性不一定是最优属性,其次ID3算法只能对于描述属性为离散型属性的数据集构造决策树。
2.C4.5
选择信息增益率最大的的描述属性作为分支属性。采用基于信息增益率的方法选择测试属性,
剪枝技术:
在决策树创建时,由于数据中的噪声和孤立点,许多分支反应的是训练数据的异常,剪枝方法处理这种过分适应数据问题,防止决策树过度复杂。
寻找最小决策树是NP问题,所以在现实中不可能找到绝对最小的决策树,只能通过分析数据,实施剪枝,最常见的方法有先剪枝和后剪枝。
(1)先剪枝通过提前停止树的构造而对树进行剪枝,如果一个节点对样本的划分导致低于预定义阈值的分裂,给定子集的进一步划分将停止。
(2)后剪枝是对已经建立好的决策树进行剪枝,后剪枝方法主要通过不断修改子树为叶节点。