决策树分析

LightGBM优势总结

摘要: 效率和内存上的提升 1) 在训练决策树计算切分点的增益时，xgboost采用预排序，即需要对每个样本的切分位置都要计算一遍，所以时间复杂度是O(#data)。而LightGBM则是将样本离散化为直方图，直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图。在遍历阅读全文

posted @ 2018-05-11 15:04 光彩照人阅读(7) | 评论 (0) 编辑

XGBoost与LightGBM对比分析（转）

摘要: 尊重原创来源： https://blog.csdn.net/a790209714/article/details/78086867 XGBoost的四大改进: ①改进残差函数不用Gini作为残差，用二阶泰勒展开+树的复杂度（正则项）带来如下好处： 1.可以控制树的复杂度 2.带有关于梯度的更多阅读全文

posted @ 2018-05-11 10:07 光彩照人阅读(26) | 评论 (0) 编辑

GB、GBDT、xgboost详细分析 (转)

摘要: 来源：http://www.cnblogs.com/wxquare/p/5541414.html GBDT和xgboost在竞赛和工业界使用都非常频繁，能有效的应用到分类、回归、排序问题，虽然使用起来不难，但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost，它们之阅读全文

posted @ 2018-02-27 17:03 光彩照人阅读(36) | 评论 (0) 编辑

随机森林步骤（转）

摘要: Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法，可以用来做分类，聚类，回归，和生存分析，这里只简单介绍该算法在分类上的应用。 Random Forest（随机森林）算法是通过训练多个决策树，生成模型，然后阅读全文

posted @ 2018-02-24 17:04 光彩照人阅读(28) | 评论 (0) 编辑

cart回归树算法过程

摘要: 回归树：使用平方误差最小准则训练集为：D={(x1,y1), (x2,y2), …, (xn,yn)}。输出Y为连续变量，将输入划分为M个区域，分别为R1,R2,…,RM,每个区域的输出值分别为：c1,c2,…,cm则回归树模型可表示为：则平方误差为：假如使用特征j的取值s来将输入空间划分为阅读全文

posted @ 2017-07-16 19:12 光彩照人阅读(714) | 评论 (0) 编辑

xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度？

摘要: 问题：用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了。但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高。用RandomForest所需要的树的深度和DecisionTree一样我能理解，因为它是用bagging的方法把Deci 阅读全文

posted @ 2017-07-16 17:39 光彩照人阅读(186) | 评论 (0) 编辑

随机森林的参数说明

摘要: A. max_features：随机森林允许单个决策树使用特征的最大数量。 Python为最大特征数提供了多个可选项。下面是其中的几个： Auto/None ：简单地选取所有特征，每颗树都可以利用他们。这种情况下，每颗树都没有任何的限制。 sqrt ：此选项是每颗子树可以利用总特征数的平方根个。阅读全文

posted @ 2017-07-09 15:32 光彩照人阅读(2203) | 评论 (0) 编辑

CART算法(转)

摘要: 来源：http://www.cnblogs.com/pinard/p/6053344.html 作者：刘建平Pinard 对于C4.5算法，我们也提到了它的不足，比如模型是用较为复杂的熵来度量，使用了相对较为复杂的多叉树，只能处理分类不能处理回归等。对于这些问题， CART算法大部分做了改进。CAR 阅读全文

posted @ 2017-07-05 09:18 光彩照人阅读(981) | 评论 (0) 编辑

分类算法：决策树（C4.5）(转)

摘要: C4.5是机器学习算法中的另一个分类决策树算法，它是基于ID3算法进行改进后的一种重要算法，相比于ID3算法，改进有如下几个要点： 1）用信息增益率来选择属性。ID3选择属性用的是子树的信息增益，这里可以用很多方法来定义信息，ID3使用的是熵（entropy，熵是一种不纯度　度量准则），也就是熵的阅读全文

posted @ 2017-07-01 17:38 光彩照人阅读(67) | 评论 (0) 编辑

决策树与迭代决策树(转)

摘要: 来源： Poll的笔记 cnblogs.com/maybe2030/p/4734645.html 阅读目录 1. 决策树的模型 2. 决策树的基本知识 3. ID3、C4.5&CART 4. Random Forest 5. GBDT 6. 参考内容 1. 决策树的模型 2. 决策树的基本知识 3. 阅读全文

posted @ 2017-06-30 14:13 光彩照人阅读(18) | 评论 (0) 编辑

随机森林（Random Forest）详解（转）

摘要: 来源： Poll的笔记 cnblogs.com/maybe2030/p/4585705.html 1 什么是随机森林？作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源阅读全文

posted @ 2017-06-30 10:34 光彩照人阅读(419) | 评论 (0) 编辑

Bagging和Boosting 概念及区别（转）

摘要: Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法（可能抽到重复的样本）。 1、Bagging ( 阅读全文

posted @ 2017-06-30 09:48 光彩照人阅读(46) | 评论 (0) 编辑

随机森林法特点

摘要: 一、定义随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为阅读全文

posted @ 2017-04-01 15:22 光彩照人阅读(63) | 评论 (0) 编辑

随笔分类 - 决策树(树形模型)

猜你喜欢