spark学习笔记1

pyspark命令练习:

textFile = sc.textFile(“README.md”)

创建一个RDD

textFile.count()

返回元素个数

textFile.first()

返回第一个元素

linesWithSpark = textFile.filter(lambda line: “Spark” in line)

过滤元素

textFile.filter(lambda line: “Spark” in line).count()
过滤并计数
textFile.map(lambda line: len(line.split())).reduce(lambda a, b: a if (a>b) else b)

map对每个元素操作,reduce对新的rdd操作

wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
首先拆分每行并扁平化 建立word为key,1为value的字典,合并相同key的值
textFile.map(lambda line: len(line.split()))

textFile.flatMap(lambda line: len(line.split()))
map是对每行进行split,每行返回一个list,

flatMap是对每行split,每行变成一个list,再把所有list合并成一个list(扁平化)

reduceByKey 
Spark的RDD的reduceByKey  
是使用一个相关的函数来合并每个key的value的值的一个算子
 
 
wordCounts.collect()

收集计算结果

spark-submit D:\spark\spark-2.0.2-bin-hadoop2.6\examples\src\main\python\pi.py

提交python写的spark任务 spark自带的例子在D:\spark\spark-2.0.2-bin-hadoop2.6\examples\src\main\

 
 

猜你喜欢

转载自blog.csdn.net/rona1/article/details/79812209