Spark : 核心RDD

RDD:Resilient Distributed Dataset 弹性分布式数据集。

RDD的五大特性:

  1. RDD是由一系列partition组成
  2. 算子(函数)作用在RDD的partition上的
  3. RDD之间有依赖关系
  4. 分区器是作用在kv格式的RDD上

猜你喜欢

转载自www.cnblogs.com/wbyixx/p/11111893.html