spark-checkpoint机制

设置checkpoint流程

    1.job执行结束后,会判断是否需要checkpint操作

    2.如果需要checkepoint操作,则先创建一个目录,在启动一个新的job计算,并将计算结果写入到创建的目录里面

    3.创建一个checkpointRDD,并将原始的RDD依赖全部删除

    4.将checkpointRDD加入到原始RDD依赖中,并将cpState状态改成checkpointed

读取checkpoint流程:

    1.检查RDD是否呗checkpoint过的

    2.如果check过的则直接从创建的目录里面读取

猜你喜欢

转载自blog.csdn.net/u013164612/article/details/80447630