Lightgbm

Lightgbm是GBDT的一种高效实现,在寻找特征最优分裂点,减少样本数目和减少特征数目上都进行了优化。

1.最优分裂点

使用直方图算法,并不是遍历特征的所有取值,而是对特征取值建立直方图,并且在直方图上寻找最优分裂点

2.减少样本

GOSS算法

样本的梯度可以当做样本的额权重,梯度很小的样本往往已经拟合的很好了,可以在下一次建树的时候忽略梯度小的样本。将样本按照梯度的绝对值进行降序排序,选取排在前面百分之a的样本并从后面的样本中采样出百分之b,在计算增益的时候只计算分裂前和分裂后被选出来的样本的增益,而且后面选出来的梯度在计算增益的时候要乘以一个系数\(\frac{1-b}{a}\)。

3.减少特征

EFB算法

通过将具有排他性的特征进行绑定从而降低特征的数目,比如四个样本在A和B两个维度的取值分别为[1,2,0,0], [0,0,1,2]则可以将这两个特征合并为[0,1,2,3]。

猜你喜欢

转载自blog.csdn.net/Xafter0/article/details/81667064