Pythonspark pyspark - 代码天地

Pythonspark pyspark

其他 2023-06-21 07:32:55 阅读次数: 0

在这里插入图片描述

Spark 计算引擎

# 导包
from pyspark import SparkConf, SparkContext

#  设置环境变量
import os
#  设置pyspark 解析器
os.environ['PYSPARK_PYTHION'] = 'D:\dev\python 3.11.4'
# 创建SparkConf类对象
#   运行模式setMaster()可以设置分布式集群
#	setAppName()  设置conf名称
conf = SparkConf().setMaster("Local[*]").setAppName("test_spark_app")

# 基于SparkConf类对象创建SparkContext类对象做为入口   执行环境入口对象 sparkcontext
sc = SparkContext(conf=conf)
# 打印PySpark的运行版本
print(sc.version)
# rdd对象  通过sparkcontext的parallelize方法 把python数据容器（list、tuple、set、dict、str）转换为RDD对象
rdd = sc.parallelize(数据容器对象)
#  读取文件  转换成rdd对象
rdd = sc.textFile(文件路径)
#  输出RDD对象
#  print(rdd)  不会打印输出，  print打印只能打印python对象   rdd.collect() 把rdd 转换成python对象
print(rdd.collect())

# 停车SparkContenxt对象的运行(停车Pyspark程序)
sc.stop()

在这里插入图片描述

spark 数据处理

在这里插入图片描述

map、flatmap
flatmap跟map一样效果，只是flatmap 对结果多一个解除嵌套。

reduceBykey

二元元组又称KV元组元组只有两个元素。 ((‘a’,1),(‘b’,2))
按key就行分组，且每组，value，会聚会计算，即两辆计算

在这里插入图片描述

输出数据

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u013400314/article/details/131259389

Pythonspark pyspark

pyspark系列--连接pyspark

PySpark操作

pyspark LDA

pyspark NaiveBayes

pyspark 浅析

pyspark 报错

mapreduce(pyspark)

PySpark的原理

pyspark streaming

pypy on PySpark

PySpark教程

PySpark（一）

pyspark -- DataFrame

pyspark logistic

PySpark DataFrame

pyspark的用法

pyspark与Mongodb

pyspark API

pyspark:FPgrowth

pyspark：GBDT

PySpark实践

pyspark 操作

PySpark笔记

pyspark ml

pyspark系列--pyspark读写dataframe

pySpark | pySpark.Dataframe使用的坑与经历

pyspark系列--pandas和pyspark对比

jupyter notebook配置pyspark

pycharm pyspark 配置

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)