决策树分析

https://www.cnblogs.com/gczr/category/1026852.html

随笔分类 - 决策树(树形模型)

摘要: 效率和内存上的提升 1) 在训练决策树计算切分点的增益时,xgboost采用预排序,即需要对每个样本的切分位置都要计算一遍,所以时间复杂度是O(#data)。 而LightGBM则是将样本离散化为直方图,直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历 阅读全文
posted @  2018-05-11 15:04 光彩照人 阅读(7) |  评论 (0)  编辑
摘要: 尊重原创 来源: https://blog.csdn.net/a790209714/article/details/78086867 XGBoost的四大改进: ①改进残差函数 不用Gini作为残差,用二阶泰勒展开+树的复杂度(正则项) 带来如下好处: 1.可以控制树的复杂度 2.带有关于梯度的更多 阅读全文
posted @  2018-05-11 10:07 光彩照人 阅读(26) |  评论 (0)  编辑
摘要: 来源:http://www.cnblogs.com/wxquare/p/5541414.html GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类、回归、排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost,它们之 阅读全文
posted @  2018-02-27 17:03 光彩照人 阅读(36) |  评论 (0)  编辑
摘要: Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,和生存分析,这里只简单介绍该算法在分类上的应用。 Random Forest(随机森林)算法是通过训练多个决策树,生成模型,然后 阅读全文
posted @  2018-02-24 17:04 光彩照人 阅读(28) |  评论 (0)  编辑
摘要: 回归树:使用平方误差最小准则 训练集为:D={(x1,y1), (x2,y2), …, (xn,yn)}。 输出Y为连续变量,将输入划分为M个区域,分别为R1,R2,…,RM,每个区域的输出值分别为:c1,c2,…,cm则回归树模型可表示为: 则平方误差为: 假如使用特征j的取值s来将输入空间划分为 阅读全文
posted @  2017-07-16 19:12 光彩照人 阅读(714) |  评论 (0)  编辑
摘要: 问题: 用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了。但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高。用RandomForest所需要的树的深度和DecisionTree一样我能理解,因为它是用bagging的方法把Deci 阅读全文
posted @  2017-07-16 17:39 光彩照人 阅读(186) |  评论 (0)  编辑
摘要: A. max_features: 随机森林允许单个决策树使用特征的最大数量。 Python为最大特征数提供了多个可选项。 下面是其中的几个: Auto/None :简单地选取所有特征,每颗树都可以利用他们。这种情况下,每颗树都没有任何的限制。 sqrt :此选项是每颗子树可以利用总特征数的平方根个。 阅读全文
posted @  2017-07-09 15:32 光彩照人 阅读(2203) |  评论 (0)  编辑
摘要: 来源:http://www.cnblogs.com/pinard/p/6053344.html 作者:刘建平Pinard 对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等。对于这些问题, CART算法大部分做了改进。CAR 阅读全文
posted @  2017-07-05 09:18 光彩照人 阅读(981) |  评论 (0)  编辑
摘要: C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 1)用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度 度量准则),也就是熵的 阅读全文
posted @  2017-07-01 17:38 光彩照人 阅读(67) |  评论 (0)  编辑
摘要: 来源: Poll的笔记 cnblogs.com/maybe2030/p/4734645.html 阅读目录 1. 决策树的模型 2. 决策树的基本知识 3. ID3、C4.5&CART 4. Random Forest 5. GBDT 6. 参考内容 1. 决策树的模型 2. 决策树的基本知识 3. 阅读全文
posted @  2017-06-30 14:13 光彩照人 阅读(18) |  评论 (0)  编辑
摘要: 来源: Poll的笔记 cnblogs.com/maybe2030/p/4585705.html 1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源 阅读全文
posted @  2017-06-30 10:34 光彩照人 阅读(419) |  评论 (0)  编辑
摘要: Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。 首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。 1、Bagging ( 阅读全文
posted @  2017-06-30 09:48 光彩照人 阅读(46) |  评论 (0)  编辑
摘要: 一、定义 随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为 阅读全文
posted @  2017-04-01 15:22 光彩照人 阅读(63) |  评论 (0)  编辑

猜你喜欢

转载自blog.csdn.net/m0_37870649/article/details/80556848