pyspark 随机森林特征重要性 - 代码天地

pyspark 随机森林特征重要性

其他 2019-02-27 19:08:02 阅读次数: 0

# IMPORT
>>> import numpy
>>> from numpy import allclose
>>> from pyspark.ml.linalg import Vectors
>>> from pyspark.ml.feature import StringIndexer
>>> from pyspark.ml.classification import RandomForestClassifier

# PREPARE DATA
>>> df = spark.createDataFrame([
...     (1.0, Vectors.dense(1.0)),
...     (0.0, Vectors.sparse(1, [], []))], ["label", "features"])
>>> stringIndexer = StringIndexer(inputCol="label", outputCol="indexed")
>>> si_model = stringIndexer.fit(df)
>>> td = si_model.transform(df)

# BUILD THE MODEL
>>> rf = RandomForestClassifier(numTrees=3, maxDepth=2, labelCol="indexed", seed=42)
>>> model = rf.fit(td)

# FEATURE IMPORTANCES
>>> model.featureImportances
SparseVector(1, {0: 1.0})

　　

重要性：

model.featureImportances

概率：

predictions.select("probability", "label").show(1000)

probability--->即为输出概率

pandas 打乱样本：

import pandas as pd
df = pd.read_excel("window regulator01 _0914新增样本.xlsx")
df = df.sample(frac = 1) #打乱样本

猜你喜欢

转载自www.cnblogs.com/Allen-rg/p/10445893.html

pyspark 随机森林特征重要性

Pyspark:随机森林

pyspark：随机森林

随机森林的特征重要性原理

pyspark RandomForestRegressor 随机森林回归

PySpark机器学习（1）——随机森林

随机森林是否需要交叉验证+特征的重要性

利用随机森林对特征重要性进行评估

随机森林如何评估特征重要性？

随机森林特征选择

pyspark---低频特征处理

sklearn:特征与树木森林的重要性

MATLAB随机森林计算重要性

PUBG_Mobile：pyspark.ml，随机森林

Python语言利用随机森林实现特征重要性排序

随机森林进行特征重要性度量的详细说明

利用随机森林对特征重要性进行评估方法一

【代码模版】sklearn实现随机森林模型建立与特征重要性评估

R语言随机森林模型中具有相关特征的变量重要性

GEE：随机森林分类特征重要性的排序（散点图、柱状图）

pyspark特征工程常用方法（一）

PySpark学习笔记（5）——文本特征处理

机器学习——随机森林特征选择及周期性分析

随机森林特点

sklearn：图像像素与平行随机森林的重要性

ML之PySpark：基于PySpark框架针对adult人口普查收入数据集结合Pipeline利用LoR/DT/RF算法(网格搜索+交叉验证评估+特征重要性)实现二分类预测(年收入是否超50k)案例

pyspark系列--连接pyspark

使用Pyspark进行特征工程时的那些坑

基于 pyspark 的编码、归一化、特征选择代码demo

随机深林-特征重要性计算方式

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)