persist与checkpoint

  1.当反复使用某些RDD时建议使用persist(缓存级别)(采用默认缓存级别时为cache())来对数据进行缓存。

  2.如果某个步骤的RDD计算特别耗时或经历很多步骤的计算,当重新计算时代价特别大,此时应考虑使用checkpoint,对DAG做检查点,将中间结果保存到高可用(一般是HDFS)的地方。

猜你喜欢

转载自www.cnblogs.com/yszd/p/9426725.html