RandomForest中的feature_importance - 代码天地

RandomForest中的feature_importance

其他 2018-06-27 15:38:41 阅读次数: 2

随机森林算法（RandomForest）的输出有一个变量是 feature_importances_ ，翻译过来是特征重要性，具体含义是什么，这里试着解释一下。

参考官网和其他资料可以发现，RF可以输出两种 feature_importance，计算方式不同。参考官网的写法，两种feature_importance分别是Variable importance和Gini importance，两者都是feature_importance，只是计算方法不同。

Variable importance

选定一个feature M，在所有OOB样本的feature M上人为添加噪声，再测试模型在OOB上的判断精确率，精确率相比没有噪声时下降了多少，就表示该特征有多重要。

假如一个feature对数据分类很重要，那么一旦这个特征的数据不再准确，对测试结果会造成较大的影响，而那些不重要的feature，即使受到噪声干扰，对测试结果也没什么影响。这就是 Variable importance 方法的朴素思想。

[添加噪声：这里官网给出的说法是 randomly permute the values of variable m in the oob cases，permute的含义我还不是很确定，有的说法是打乱顺序，有的说法是在数据上加入白噪声。]

Gini importance

选定一个feature M，统计RF的每一棵树中，由M形成的分支节点的Gini指数下降程度（或不纯度下降程度）之和，这就是M的importance。

两者对比来看，前者比后者计算量更大，后者只需要一边构建DT，一边做统计就可以。从sklearn的官方文档对feature_importances_参数的描述来看，sklearn应当是使用了Gini importance对feature进行排序，同时sklearn把所有的Gini importance以sum的方式做了归一化，得到了最终的feature_importances_输出参数。

参考文献：

RandomForest 官网 https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

猜你喜欢

转载自www.cnblogs.com/xxiaolige/p/9234188.html

RandomForest中的feature_importance

特征重要性--feature_importance

筛选重要特征的方法feature_importance_

RandomForest的out of bag estimate 及Feature selection 具体作法

【机器学习笔记】使用lightgbm画并保存Feature Importance

ArcGIS中对Feature的操作

CNN中的feature map

importance sampling

Feature

CNN中的low-level feature 与high-level feature

机器学习中的特征缩放（feature scaling）

Matlab中Feature Selection Library的安装

arcgisJs之featureLayer中feature的获取

fastjson中Feature的用法及中文注解

目标检测中的Feature Alignment问题

pytorch中feature map的可视化

Google Earth Engine（gee）中的Feature

理解CNN中的特征图 feature map

Unity中Shader的变体shader_feature

RandomForest:随机森林

随机森林 RandomForest java

RandomForest 调参

sklearn-RandomForest

随机森林（RandomForest）

Spark随机森林RandomForest

集成学习---(Bagging) RandomForest

RandomForest随机森林

随机森林 RandomForest

基于RandomForest预测模型

690. Employee Importance

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)