python语法-pyspark实战（数据计算-1） - 代码天地

python语法-pyspark实战（数据计算-1）

业界资讯 2023-07-12 05:50:05 阅读次数: 0

数据计算-Map方法

"""
演示RDD的map成员方法的使用
"""
from pyspark import SparkConf, SparkContext
import os

os.environ['PYSPARK_PYTHON'] = 'D:\Python3.9\python.exe'  # 通过os设置环境变量

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd = sc.parallelize([1, 2, 3, 4, 5])


# 通过map方法将全部数据都乘以10
def func(data):
    return data * 10


rdd2 = rdd.map(func)  # 将rdd内每个数据都进行func函数的处理
print(rdd2.collect())
# 链式调用
rdd3 = rdd2.map(func)
print(rdd3.collect())
sc.stop()

数据计算-flatMap方法（对rdd执行map操作，然后进行解除嵌套操作）

"""
演示RDD的flatMap成员方法的使用
"""
from pyspark import SparkConf, SparkContext
import os

os.environ['PYSPARK_PYTHON'] = 'D:\Python3.9\python.exe'  # 通过os设置环境变量
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd = sc.parallelize(["itheima itcast 666", "itheima itheima itcast", "python itheima"])

# 需求，将RDD数据里面的一个个单词提取出来
rdd2 = rdd.flatMap(lambda x: x.split(" "))
print(rdd2.collect())

"""
演示reduceByKey算子的使用
功能：针对KV型RDD，自动按照key分组，然后根据你提供的聚合逻辑，完成组内数据（value)的聚合操作
    方法内的func接收2个传入参数（类型一致），返回一个返回值，和传入类型一致
"""
from pyspark import SparkConf, SparkContext
import os

os.environ['PYSPARK_PYTHON'] = 'D:\Python3.9\python.exe'  # 通过os设置环境变量
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([('a', 1), ('a', 1), ('b', 1), ('b', 1)])
result = rdd.reduceByKey(lambda a, b: a + b)
print(result.collect())
# 结果：[('a', 2), ('b', 2)]

word_count案例
在这里插入图片描述

参考内容：
python语法-pyspark实战（基础知识）
python语法-pyspark实战（数据输入）

猜你喜欢

转载自blog.csdn.net/qq_45833373/article/details/131255409

python语法-pyspark实战（数据计算-1）

python语法-pyspark实战（数据计算-2）

python语法-pyspark实战（数据输入）

python语法-pyspark实战（基础知识）

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

Python大数据处理库PySpark实战

Python大数据处理利器，PySpark的入门实战

【Python】PySpark 数据计算 ① ( RDD#map 方法 | RDD#map 语法 | 传入普通函数 | 传入 lambda 匿名函数 | 链式调用 )

【Python】PySpark 数据计算 ③ ( RDD#reduceByKey 函数概念 | RDD#reduceByKey 方法工作流程 | RDD#reduceByKey 语法 | 代码示例 )

《Python大数据处理库PySpark实战》用Python操作Spark

Python学习之PySpark案例实战

【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

Spark Python API函数：pyspark API(1)

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

数据分析入门_PART1python基础语法_实战项目02基于Python的算法函数创建

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解

【Python】语法基础---1、基本数据

python中，用pyspark读写Hive数据

【错误记录】Python 中使用 PySpark 数据计算报错 ( SparkException: Python worker failed to connect back. )

【Python】PySpark 数据处理 ① ( PySpark 简介 | Apache Spark 简介 | Spark 的 Python 语言版本 PySpark | Python 语言场景 )

浅学实战：探索PySpark实践，解锁大数据魔法！

【Python】PySpark 数据输入 ① ( RDD 简介 | RDD 中的数据存储与计算 | Python 容器数据转 RDD 对象 | 文件文件转 RDD 对象 )

pyspark：集群环境实战

python实战（1）：简单的数据采集与分析

Python数据分析 | (1)Python语法基础

数据分析入门_PART1python基础语法_实战项目01商铺数据文件加载及存储为pickle

【Spark】(task1)PySpark基础数据处理

Python基础语法1

Python语法【1】

python 不熟的语法1

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)