Грамматика Python - реальный бой pyspark (ввод данных)

Грамматика Python - реальный бой pyspark (ввод данных)

1. Продемонстрируйте преобразование данных объекта Python (базовая структура данных) в объекты RDD с помощью кода pyspark, то есть
метода ввода данных parallelize().

"""
演示通过pyspark代码加载数据,即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 通过parallelize方法将python对象(数据结构)加载到spark内,成为RDD对象
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize((1, 2, 3, 4, 5))
rdd3 = sc.parallelize("abcdefg")
rdd4 = sc.parallelize({
    
    1, 2, 3, 4, 5})
rdd5 = sc.parallelize({
    
    "key1": "value1", "key2": "value2"})

# 如果要查看RDD里面有什么内容,需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

sc.stop()
# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象

2. Продемонстрируйте, что данные файла, загруженные кодом pyspark, преобразуются в объект RDD, то есть
метод ввода данных textFile().

"""
演示通过pyspark代码加载数据,即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象
rdd = sc.textFile("测试.txt")
print(rdd.collect())

sc.stop()

Справочное содержание:
грамматика python - реальный бой pyspark (базовые знания)
программист темной лошадки - основы python

Guess you like

Origin blog.csdn.net/qq_45833373/article/details/131255186