python语法-pyspark实战（数据计算-2） - 代码天地

python语法-pyspark实战（数据计算-2）

业界资讯 2023-07-12 05:49:51 阅读次数: 0

filter方法

"""
filter方法
功能：过滤想要的数据，其余进行保留
    func：（T）：bool
    返回是True的数据被保留，False的数据被丢弃
"""
# coding:utf8
from pyspark import SparkConf, SparkContext
import os

os.environ['PYSPARK_PYTHON'] = 'D:\Python3.9\python.exe'  # 通过os设置环境变量

if __name__ == '__main__':
    # 构建Spark执行环境
    conf = SparkConf().setMaster("local[*]").setAppName("create_rdd")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6])

    # 保留奇数
    print(rdd.filter(lambda x: x % 2 == 1).collect())

distinct方法

"""
distinct方法
功能：对RDD数据进行去重，返回新的RDD
    无需传参
"""
from pyspark import SparkConf, SparkContext
import os

os.environ['PYSPARK_PYTHON'] = 'D:\Python3.9\python.exe'  # 通过os设置环境变量

if __name__ == '__main__':
    # 构建Spark执行环境
    conf = SparkConf().setMaster("local[*]").setAppName("create_rdd")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 1, 2, 3, 4, 5, 6, 7])
    print(rdd.distinct().collect())

sortBy方法

"""
sortBy算子
功能：对RDD数据进行排序，基于你指定的排序依据
语法：rdd.sortBy(func, ascending=False, numPartitions=1)
    func:(T)->U:告知按照rdd中的哪个数据进行排序，比如lambda x:x[1] 表示按照rdd中的第二列元素进行排序
    ascending True升序 False降序
    numPartitions：用多少分区排序
"""

练习案例

参考内容：
python语法-pyspark实战（基础知识）
python语法-pyspark实战（数据输入）

猜你喜欢

转载自blog.csdn.net/qq_45833373/article/details/131312455

python语法-pyspark实战（数据计算-2）

python语法-pyspark实战（数据计算-1）

python语法-pyspark实战（数据输入）

python语法-pyspark实战（基础知识）

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

Python大数据处理库PySpark实战

Python大数据处理利器，PySpark的入门实战

【Python】PySpark 数据计算 ① ( RDD#map 方法 | RDD#map 语法 | 传入普通函数 | 传入 lambda 匿名函数 | 链式调用 )

【Python】PySpark 数据计算 ③ ( RDD#reduceByKey 函数概念 | RDD#reduceByKey 方法工作流程 | RDD#reduceByKey 语法 | 代码示例 )

《Python大数据处理库PySpark实战》用Python操作Spark

Python学习之PySpark案例实战

【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

pyspark默认使用python2-----更改

Spark Python API函数：pyspark API(2)

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解

python中，用pyspark读写Hive数据

【错误记录】Python 中使用 PySpark 数据计算报错 ( SparkException: Python worker failed to connect back. )

【Python】PySpark 数据处理 ① ( PySpark 简介 | Apache Spark 简介 | Spark 的 Python 语言版本 PySpark | Python 语言场景 )

浅学实战：探索PySpark实践，解锁大数据魔法！

【Python】PySpark 数据输入 ① ( RDD 简介 | RDD 中的数据存储与计算 | Python 容器数据转 RDD 对象 | 文件文件转 RDD 对象 )

pyspark：集群环境实战

Spark实战(四)spark+python快速入门实战小例子(PySpark)

Python学习笔记——大数据之Pyspark与notebook使用matplotlib

大数据技术学习：Spark与Python入门-PySpark

基于PySpark大数据分析/Python/Spark

Python大数据处理利器之Pyspark详解

python进阶语法2

python基础语法2

python 不熟的语法2

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)