PySpark实践 - 代码天地

PySpark实践

其他 2020-03-16 10:24:30 阅读次数: 0

大数据入门与实战-PySpark的使用教程：https://www.jianshu.com/p/5a42fe0eed4d

PySpark – SparkContext

class pyspark.SparkContext (
   master = None,
   appName = None, 
   sparkHome = None, 
   pyFiles = None, 
   environment = None, 
   batchSize = 0, 
   serializer = PickleSerializer(), 
   conf = None, 
   gateway = None, 
   jsc = None, 
   profiler_cls = <class 'pyspark.profiler.BasicProfiler'>
)

PySpark – RDD

有两种方法:

转换 - 这些操作应用于RDD以创建新的RDD。Filter，groupBy和map是转换的示例

操作 - 这些是应用于RDD的操作，它指示Spark执行计算并将结果发送回驱动程序

count() // 返回RDD中的元素个数
collect() // 返回RDD中的所有元素
foreach(func) // 仅返回满足foreach内函数条件的元素
filter(f) // 返回一个包含元素的新RDD，它满足过滤器内部的功能
map(f, preservesPartitioning = False) // 通过将该函数应用于RDD中的每个元素来返回新的RDD
reduce(f) // 执行指定的可交换和关联二元操作后，将返回RDD中的元素
join(other, numPartitions = None) // 它返回RDD，其中包含一对带有匹配键的元素以及该特定键的所有值

dlphay

发布了81 篇原创文章 · 获赞 118 · 访问量 24万+

私信关注

猜你喜欢

转载自blog.csdn.net/dlphay/article/details/98395881

PySpark实践

pyspark实践汇总4

pyspark 实践汇总5

pyspark 实践汇总3

pyspark 实践汇总2

pyspark 实践汇总1

pyspark实践之 map/flatMap应用示例

浅谈pandas，pyspark 的大数据ETL实践经验

基于pyspark的数据科学与商业实践视频课程

基于pyspark的Spark Streaming+Kafka编程实践

浅学实战：探索PySpark实践，解锁大数据魔法！

pyspark系列--连接pyspark

大数据ETL实践探索（3）---- pyspark 之大数据ETL利器

涉及RDD批处理、SparkSQL、Sparkstreaming、Spark ML的pyspark实践学习

[亲身实践]pyspark读取hive中的表的两种方式

PySpark操作

pyspark LDA

pyspark NaiveBayes

pyspark 浅析

pyspark 报错

mapreduce(pyspark)

pyspark streaming

PySpark的原理

pypy on PySpark

PySpark教程

PySpark（一）

pyspark -- DataFrame

PySpark DataFrame

pyspark logistic

pyspark的用法

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)