【数据分析案例】从XGBoost算法开始,更好地理解和改进你的模型

案例来源:@将门创投

1. 目标:使用xgb评估客户的信贷风险时,还希望得出揭示

2. xgb全局特征重要性度量
1)weight:根据特征用于划分的次数
2)cover:根据特征用于划分的次数和每次划分的样本数加权计算得来
3)gain:特征用于划分时所带来的训练损失减益的平均值

3. 评价特征度量的原因
1)一致性:如果我们队模型进行修改,使其更依赖于某个特征A的话,那么特征A的特征重要性不应当降低
2)准确性:所有特征重要性的和要等于模型的总重要性。例如,如果重要性是由R²值计算得到的,那么各个特征的R²值相加应等于模型的R²值

4. 局部特征归因方法(对每个客户的预测提供解释)
1)Tree SHAP
2)Saabas
3)mean Tree SHAP
4)Gain:特征用于划分时所带来的训练损失减益的平均值
5)Split Count:特征用户划分的次数
6)Permutation:当随机扰动某个特征时,模型在测试集上准确率的下降(可以是OOB数据,参林轩田《机器学习技法》课)

5. 测试结论:
1)均不一致
2)Gain和Permutation是不准确的
3)通常来说离根越近的节点分裂越重要,但是gain方法中低层叶节点分裂的贡献更大
4)mean Tree SHAP效果好(还没找到文献...不知道怎么用...大家有了解的麻烦告知下...树模型的可解释性可以帮助更好地理解模型,反过来构建特征)

猜你喜欢

转载自blog.csdn.net/u013382288/article/details/80838732
今日推荐