机器学习决策树

1.决策树是非参数的有监督学习方法。

2.根节点：最初问题所在地方。（只有输出没有输入）

3.叶节点：得到的结论。（只有输入没有输出）每一个叶节点都是一个类别标签

4.内部节点：只有一条输入，可有多条输出。

5.子节点和父节点：两个相连节点中，接近根节点的是父节点，另一个是子节点。

6.贪心算法：通过实现局部最优来达到接近全局最优结果的算法。

7.典型决策树算法：Hunt算法：ID3、C4.5、CART

8.不纯度：衡量最佳节点和最佳分枝方法的指标。叶子节点不纯度最低。

9.误差率：可计算出不纯度，classification error(t)=1-max[p(i|t)]

　　信息增益→信息熵/香农熵：entropy(t)=-∑p(i|t)log2p(i|t) 用于ID3

　　基尼指数：gini=1-∑[p(i|t)]^2 主要用于CART

10.决策树最终的优化目标：使叶节点的总不纯度最低，即对应衡量不纯度的指标最低。

11.ID3选择最大化增益△的测试条件：△=I(父)-I(子), I(子)=∑(N(vj)/N)*I(vj)按权重计算

12.ID3的局限性：a.分支度高

　　　　　　　　b.不能直接处理连续型变量，使用时要将连续型变量进行离散化（利用分箱）

　　　　　　　　c.对缺失值敏感，使用前需对缺失值进行处理

　　　　　　　　d.没有剪枝容易导致过拟合

13.过拟合：学习能力很强但学得太过精细。在训练集上表现很好，测试集表现糟糕。

14.欠拟合：模型学习能力不足，在训练集和测试集上都表现糟糕。

15.C4.5引入分支度IV，添加了分类变量水平的惩罚项。IV=-∑p(vi)log2p(vi) （ID3是p(i|t)）

　　p(i|t)某类别样例占总样例数→p(vi)某子节点的总样本数占父节点总样本数的比例

16.获利比例/增益率：Gain Rati=gain/IV　　希望GR越大越好　　（ID3只算到gain，C4.5算到IV和GR）

17.C4.5增加了针对连续变量的处理手段。　　N-1个二分方案，选GR最大的切点，切分后并没有消费掉那一列

18.CART树：C4.5上改进，每层都为二叉树。

19.决策树基本流程：计算全部特征的不纯度指标→选取不纯度指标最优的特征来分枝→在第一个特征的分枝下计算全部特征的不纯度指标→选取不纯度指标最优特征继续分枝→……

分类模型：

20.重要参数criterion：决定不纯度的计算方法，默认gini，还可选entropy信息熵

　　信息熵对不纯度更敏感，使用entropy时决策树生长更“精细”。数据维度大、噪声大时用gini。

21.random_state：随机模式的参与，默认None

splitter：控制决策树中的随机选项。best优先选择更重要的特征，random随机（防止过拟合）。

22.剪枝：决策树容易过拟合，正确的剪枝策略是优化决策树算法的核心。

23.剪枝参数：max_depth限制树的最大深度，建议从=3开始

　　　　　　 min_samples_leaf一个节点分枝后子节点至少包含样本数，建议从=5开始

　　　　　　 min_samples_split一个节点至少包含样本数

　　　　　　 max_features限制分枝时考虑的特征数

　　　　　　 min_impurity_decrease限制信息增益的大小

24.确认最优的剪枝参数：使用超参数的学习曲线。

25.重要属性：feature_importances_查看各个特征对模型的重要性

26.接口：score、fit

　　　　 apply输入测试集返回每个测试样本所在叶子节点的索引 clf.apply(Xtest)

　　　　 predict返回每个测试样本的标签 clf.predict(Xtest)

27.所有接口要求输入X_train和X_test部分，输入的特征矩阵必须至少为二维矩阵，可使用reshape(1,-1)来增维。

28.二分类决策树样本不均衡问题：使用class_weight，默认None均衡，可用{标签值1：权重1，标签值2：权重2}真实比例，可用balanced模式

　　使用后样本平衡后准确率会下降。

29.评估指标：混淆矩阵。

　　a.衡量模型整体效果：准确率Accuracy=(11+00)/(11+10+01+00)

　　b.捕捉少数类：精确度Precision=11/(11+01) 衡量将多数类判错后所需付出成本，例召回汽车时追求精确度

　　　　　　　　召回率/敏感度/真正率/查全率Recall=11/(11+10) 不计一切代价找出少数类

　　　　　　　　假负率FNR=1-recall=10/(11+10)

　　c.判断多数类：特异度specificity=00/(01+00)

　　　　　　　　假正率FPR=1-specificity=01/(01+00)

回归模型：

30.重要参数criterion：mse均方误差　　MSE=1/N*∑(fi-yi)^2　　MSE是常用的衡量回归质量的指标，越小越好

　　　　　　　　　　friedman_mse费尔德曼均方误差

　　　　　　　　　　mae绝对平均误差

31.重要属性：feature_importances_

32.重要接口：apply、fit、predict

　　　　　　 score：返回R^2，R^2=1-残差平方和/总平方和

33.决策树优点：易于理解和解释、需要很少的数据准备（但sklearn中决策树不支持对缺失值的处理）、使用树的成本低、既可以做回归又可以做分类、能够处理多输出问题，即含多个标签问题、是一个白盒模型，容易解释、可使用统计测试验证模型（模型可靠）、表现好。

34.决策树缺点：容易过度拟合、可能不稳定，微小变化会导致生成完全不同的树、有些概念决策树不容易表达、决策树会创建偏向主导类的树、贪婪算法不能保证返回全局最优决策树。

猜你喜欢