python语法-pyspark实战(数据输入)

python语法-pyspark实战(数据输入)

1.演示通过pyspark代码加载python对象数据(基本数据结构)转为RDD对象,即数据输入
parallelize()方法

"""
演示通过pyspark代码加载数据,即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 通过parallelize方法将python对象(数据结构)加载到spark内,成为RDD对象
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize((1, 2, 3, 4, 5))
rdd3 = sc.parallelize("abcdefg")
rdd4 = sc.parallelize({
    
    1, 2, 3, 4, 5})
rdd5 = sc.parallelize({
    
    "key1": "value1", "key2": "value2"})

# 如果要查看RDD里面有什么内容,需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

sc.stop()
# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象

2.演示通过pyspark代码加载文件数据转为RDD对象,即数据输入
textFile()方法

"""
演示通过pyspark代码加载数据,即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象
rdd = sc.textFile("测试.txt")
print(rdd.collect())

sc.stop()

参考内容:
python语法-pyspark实战(基础知识)
黑马程序员-python基础

猜你喜欢

转载自blog.csdn.net/qq_45833373/article/details/131255186