python语法-pyspark实战（数据输入）

业界资讯 2023-07-12 05:50:19 阅读次数: 0

python语法-pyspark实战（数据输入）

1.演示通过pyspark代码加载python对象数据（基本数据结构）转为RDD对象，即数据输入
parallelize()方法

"""
演示通过pyspark代码加载数据，即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 通过parallelize方法将python对象(数据结构)加载到spark内，成为RDD对象
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize((1, 2, 3, 4, 5))
rdd3 = sc.parallelize("abcdefg")
rdd4 = sc.parallelize({
    
    1, 2, 3, 4, 5})
rdd5 = sc.parallelize({
    
    "key1": "value1", "key2": "value2"})

# 如果要查看RDD里面有什么内容，需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

sc.stop()
# 用过textFile方法，读取文件数据加载到Spark内，成为RDD对象

2.演示通过pyspark代码加载文件数据转为RDD对象，即数据输入
textFile()方法

"""
演示通过pyspark代码加载数据，即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 用过textFile方法，读取文件数据加载到Spark内，成为RDD对象
rdd = sc.textFile("测试.txt")
print(rdd.collect())

sc.stop()

参考内容：
python语法-pyspark实战（基础知识）
黑马程序员-python基础

猜你喜欢

转载自blog.csdn.net/qq_45833373/article/details/131255186

python语法-pyspark实战（数据输入）

python语法-pyspark实战（数据计算-1）

python语法-pyspark实战（数据计算-2）

python语法-pyspark实战（基础知识）

Python大数据处理库PySpark实战

Python大数据处理利器，PySpark的入门实战

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

《Python大数据处理库PySpark实战》用Python操作Spark

Python学习之PySpark案例实战

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解

python中，用pyspark读写Hive数据

【Python】PySpark 数据输入 ① ( RDD 简介 | RDD 中的数据存储与计算 | Python 容器数据转 RDD 对象 | 文件文件转 RDD 对象 )

【Python】PySpark 数据处理 ① ( PySpark 简介 | Apache Spark 简介 | Spark 的 Python 语言版本 PySpark | Python 语言场景 )

浅学实战：探索PySpark实践，解锁大数据魔法！

pyspark：集群环境实战

【Python】PySpark 数据计算 ① ( RDD#map 方法 | RDD#map 语法 | 传入普通函数 | 传入 lambda 匿名函数 | 链式调用 )

【Python】PySpark 数据计算 ③ ( RDD#reduceByKey 函数概念 | RDD#reduceByKey 方法工作流程 | RDD#reduceByKey 语法 | 代码示例 )

Spark实战(四)spark+python快速入门实战小例子(PySpark)

Python学习笔记——大数据之Pyspark与notebook使用matplotlib

大数据技术学习：Spark与Python入门-PySpark

基于PySpark大数据分析/Python/Spark

Python大数据处理利器之Pyspark详解

Python基础语法(认识变量，运算符，数据的输入与输出，常用内置函数的操作)

python基础语法（print、数据类型、变量、注释、输入、条件语句）

数据分析实战——03丨Python基础语法：开始你的Python之旅

Pyspark+tensorflow-信用贷款数据分析实战（四）——提取数据代码

Pyspark+tensorflow-信用贷款数据分析实战（三）——数据提取

Pyspark+tensorflow-信用贷款数据分析实战（一）——了解数据

pyspark修改python版本

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)