Python PySpark toLocalIterator()函数

pyspark.RDD.toLocalIterator()

RDD.toLocalIterator(prefetchPartitions=False)

它是PySpark中RDD的一个方法。
返回一个包含该RDD中所有元素的迭代器。
这个迭代器消耗的内存和这个RDD中最大分区的内存一样大。
如果选择预选,即prefetchPartitions设为True,那它可能最多消耗两个最大分区的内存。
用这个函数可以方便地将RDD中的数据转换为一个迭代器,方便的进行遍历操作。

参数:

参数名:prefetchPartitions
参数类型:bool型 ,默认为False
参数是否必选:可选
Spark是否需要在需要的时候预先获取下一个分区

例如:

rdd = sc.parallelize(range(10))
[x for x in rdd.toLocalIterator()]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

猜你喜欢

转载自blog.csdn.net/weixin_42072754/article/details/115122881