0
本文列举几个常见的pyspark动作函数,几个常见的转换函数点这里
count() | 返回数据集中的元素个数 |
---|---|
collect() | 以列表的形式返回数据集中的所有元素 |
first() | 返回数据集中的第一个元素 |
take(n) | 以数组的形式返回数据集中的前n个元素 |
reduce(func) | 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素 |
foreach(func) | 将数据集中的每个元素传递到函数func中运行 |
1、collect()
rdd = sc.parallelize([1, 2, 3, 4, 5])
rdd.collect()
输出:
[1, 2, 3, 4, 5]
2、first()
rdd.first()
输出:
1
3、take(n)
rdd.take(n)
输出:
[1, 2, 3]
4、reduce(func)
rdd.reduce(lambda a,b:a+b)
输出:
15
5、foreach(func)
rdd.foreach(lambda elem:print(elem))
输出:
1
2
3
4
5