spark RDD的五大属性

1、RDD五大属性

  • A list of partitions 分区列表
  • A function for computing each split 作用在每一个文件切片上面的函数
  • A list of dependencies on other RDDs 依赖于其他的一些RDD
  • Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) 可选项:对于key,value对的rdd,有分区函数
  • Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file) 可选项:数据的位置优先性来进行计算。移动计算比移动数据便宜,如果文件在哪一台服务器上面,就在哪一台服务器上面启动task进行运算,尽量避免数据的拷贝

猜你喜欢

转载自blog.csdn.net/weixin_44429965/article/details/107356541