pyspark 变量分箱代码实现 - 代码天地

pyspark 变量分箱代码实现

其他 2021-11-18 07:41:54 阅读次数: 0

直接上代码：

from pyspark.ml.feature import QuantileDiscretizer

lis = [{
    
    'cli': 11}, {
    
    'cli': 0}, {
    
    'cli': 0}, {
    
    'cli': 3}, {
    
    'cli': 100}, {
    
    'cli': 76}, {
    
    'cli': 23}, {
    
    'cli': 2}, 
       {
    
    'cli': 800}, {
    
    'cli': 9}, {
    
    'cli': 10}, {
    
    'cli': 100}, {
    
    'cli': 339}, {
    
    'cli': 678}, {
    
    'cli': 297}, 
       {
    
    'cli': 10}]
dlis = ss.createDataFrame(lis)
dlis.show()

dqis = QuantileDiscretizer(numBuckets=3, inputCol='cli', outputCol='cli_but', relativeError=0.001)
model = dqis.fit(dlis)
dlis = model.transform(dlis)
dlis.show()

ltmp = [{
    
    'cli': 7}, {
    
    'cli': 70}]
tmplis = ss.createDataFrame(ltmp)

# # 保存分箱规则到HDFS
# model.write().overwrite().save('XXX.model')
# mmmodel = QuantileDiscretizer.load('XXX.model')
# df1 = mmmodel.transform(tmplis)
# df1.show()

'''
+---+
|cli|
+---+
| 11|
|  0|
|  0|
|  3|
|100|
| 76|
| 23|
|  2|
|800|
|  9|
| 10|
|100|
|339|
|678|
|297|
| 10|
+---+

+---+-------+
|cli|cli_but|
+---+-------+
| 11|    1.0|
|  0|    0.0|
|  0|    0.0|
|  3|    0.0|
|100|    2.0|
| 76|    1.0|
| 23|    1.0|
|  2|    0.0|
|800|    2.0|
|  9|    0.0|
| 10|    1.0|
|100|    2.0|
|339|    2.0|
|678|    2.0|
|297|    2.0|
| 10|    1.0|
+---+-------+
'''

官方API：

http://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.feature.QuantileDiscretizer.html#pyspark.ml.feature.QuantileDiscretizer

其它例子：

https://www.wenjiangs.com/doc/sjq3ypen1

猜你喜欢

转载自blog.csdn.net/qq_42363032/article/details/121017996

pyspark 变量分箱代码实现

pyspark的RDD代码纪录

集群运行PySpark代码

pyspark—WordCount代码

（5）pyspark----共享变量

在pyspark中调用scala代码

【pyspark】pyspark提交python代码至yarn运行

PySpark 实现Logistic Regression模型

pyspark @udf 循环使用变量问题

PySpark基础入门（4）：RDD共享变量

pyspark的join.py代码记录

pyspark对应的scala代码PythonRDD对象

pyspark基于window实现列数据偏移

Jupyter与PySpark实现结合spark与python的notebook

PySpark数据分析基础：pyspark.sql.SparkSession类方法详解及操作+代码展示

pyspark系列--连接pyspark

linux 环境下 python的安装及pyspark 的环境变量配置

Pyspark基础入门6_RDD的共享变量

基于 pyspark 的编码、归一化、特征选择代码demo

基于PySpark和ALS算法实现基本的电影推荐流程

PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(一)+代码详解

PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(二)+代码详解

PySpark操作

pyspark NaiveBayes

pyspark LDA

pyspark 浅析

pyspark 报错

mapreduce(pyspark)

pyspark streaming

PySpark的原理

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

面试爱奇艺，竟然挂在第5轮……

scala方法和函数的区别

NYIST--2018大一新生第一次周赛题解

java如何通过client客戶端http实现get/ post请求传递json参数到restful 服务接口

RabbitMQ 队列类型

2018-2019-1 20165311 20165329 20165334 实验一开发环境的熟悉

iOS打包工具配置相应的文件路径一键打包到指定位置

【每日一题】替换空格

【转载】FPGA配置方式

旅行青蛙

每日归档

更多

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)