pyspark动作函数

0

 本文列举几个常见的pyspark动作函数,几个常见的转换函数点这里

count() 返回数据集中的元素个数
collect() 以列表的形式返回数据集中的所有元素
first() 返回数据集中的第一个元素
take(n) 以数组的形式返回数据集中的前n个元素
reduce(func) 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素
foreach(func) 将数据集中的每个元素传递到函数func中运行

1、collect()

rdd = sc.parallelize([1, 2, 3, 4, 5])
rdd.collect()

输出

[1, 2, 3, 4, 5]

2、first()

rdd.first()

输出

1

3、take(n)

rdd.take(n)

输出

[1, 2, 3]

4、reduce(func)

rdd.reduce(lambda a,b:a+b)

输出

15

5、foreach(func)

rdd.foreach(lambda elem:print(elem))

输出

1
2
3
4
5

猜你喜欢

转载自blog.csdn.net/TSzero/article/details/114922515
今日推荐