机器学习决策树

1.决策树是非参数的有监督学习方法。

2.根节点:最初问题所在地方。(只有输出没有输入)

3.叶节点:得到的结论。(只有输入没有输出)每一个叶节点都是一个类别标签

4.内部节点:只有一条输入,可有多条输出。

5.子节点和父节点:两个相连节点中,接近根节点的是父节点,另一个是子节点。

6.贪心算法:通过实现局部最优来达到接近全局最优结果的算法。

7.典型决策树算法:Hunt算法:ID3、C4.5、CART

8.不纯度:衡量最佳节点和最佳分枝方法的指标。叶子节点不纯度最低。

9.误差率:可计算出不纯度,classification error(t)=1-max[p(i|t)]

  信息增益→信息熵/香农熵:entropy(t)=-∑p(i|t)log2p(i|t)  用于ID3

  基尼指数:gini=1-∑[p(i|t)]^2 主要用于CART

10.决策树最终的优化目标:使叶节点的总不纯度最低,即对应衡量不纯度的指标最低。

11.ID3选择最大化增益△的测试条件:△=I(父)-I(子), I(子)=∑(N(vj)/N)*I(vj)按权重计算

12.ID3的局限性:a.分支度高

        b.不能直接处理连续型变量,使用时要将连续型变量进行离散化(利用分箱)

        c.对缺失值敏感,使用前需对缺失值进行处理

        d.没有剪枝容易导致过拟合

13.过拟合:学习能力很强但学得太过精细。在训练集上表现很好,测试集表现糟糕。

14.欠拟合:模型学习能力不足,在训练集和测试集上都表现糟糕。

15.C4.5引入分支度IV,添加了分类变量水平的惩罚项。IV=-∑p(vi)log2p(vi)    (ID3是p(i|t))

  p(i|t)某类别样例占总样例数→p(vi)某子节点的总样本数占父节点总样本数的比例

16.获利比例/增益率:Gain Rati=gain/IV  希望GR越大越好  (ID3只算到gain,C4.5算到IV和GR)

17.C4.5增加了针对连续变量的处理手段。  N-1个二分方案,选GR最大的切点,切分后并没有消费掉那一列

18.CART树:C4.5上改进,每层都为二叉树。

19.决策树基本流程:计算全部特征的不纯度指标→选取不纯度指标最优的特征来分枝→在第一个特征的分枝下计算全部特征的不纯度指标→选取不纯度指标最优特征继续分枝→……

分类模型:

20.重要参数criterion:决定不纯度的计算方法,默认gini,还可选entropy信息熵

  信息熵对不纯度更敏感,使用entropy时决策树生长更“精细”。数据维度大、噪声大时用gini。

21.random_state:随机模式的参与,默认None

     splitter:控制决策树中的随机选项。best优先选择更重要的特征,random随机(防止过拟合)。

22.剪枝:决策树容易过拟合,正确的剪枝策略是优化决策树算法的核心。

23.剪枝参数:max_depth限制树的最大深度,建议从=3开始

       min_samples_leaf一个节点分枝后子节点至少包含样本数,建议从=5开始

       min_samples_split一个节点至少包含样本数

       max_features限制分枝时考虑的特征数

       min_impurity_decrease限制信息增益的大小

24.确认最优的剪枝参数:使用超参数的学习曲线。

25.重要属性:feature_importances_查看各个特征对模型的重要性

26.接口:score、fit

     apply输入测试集返回每个测试样本所在叶子节点的索引 clf.apply(Xtest)

     predict返回每个测试样本的标签 clf.predict(Xtest)

27.所有接口要求输入X_train和X_test部分,输入的特征矩阵必须至少为二维矩阵,可使用reshape(1,-1)来增维。

28.二分类决策树样本不均衡问题:使用class_weight,默认None均衡,可用{标签值1:权重1,标签值2:权重2}真实比例,可用balanced模式

  使用后样本平衡后准确率会下降。

29.评估指标:混淆矩阵。

  

  a.衡量模型整体效果:准确率Accuracy=(11+00)/(11+10+01+00)

  b.捕捉少数类:精确度Precision=11/(11+01) 衡量将多数类判错后所需付出成本,例召回汽车时追求精确度

           召回率/敏感度/真正率/查全率Recall=11/(11+10) 不计一切代价找出少数类

           假负率FNR=1-recall=10/(11+10)

  c.判断多数类:特异度specificity=00/(01+00)

           假正率FPR=1-specificity=01/(01+00)

回归模型:

30.重要参数criterion:mse均方误差  MSE=1/N*∑(fi-yi)^2  MSE是常用的衡量回归质量的指标,越小越好

          friedman_mse费尔德曼均方误差

          mae绝对平均误差

31.重要属性:feature_importances_

32.重要接口:apply、fit、predict

        score:返回R^2,R^2=1-残差平方和/总平方和

33.决策树优点:易于理解和解释、需要很少的数据准备(但sklearn中决策树不支持对缺失值的处理)、使用树的成本低、既可以做回归又可以做分类、能够处理多输出问题,即含多个标签问题、是一个白盒模型,容易解释、可使用统计测试验证模型(模型可靠)、表现好。

34.决策树缺点:容易过度拟合、可能不稳定,微小变化会导致生成完全不同的树、有些概念决策树不容易表达、决策树会创建偏向主导类的树、贪婪算法不能保证返回全局最优决策树。

猜你喜欢

转载自www.cnblogs.com/yujingwei/p/11073467.html