spark的checkpoint - 代码天地

spark的checkpoint

其他 2018-10-31 18:09:34 阅读次数: 0

checkpoint的机制保证了需要访问重复数据的应用Spark的DAG执行行图可能很庞大，任务中计算链可能会很长，这时如果任务中途运行出错，那么任务的整个需要重算非常耗时，因此，有必要将计算代价较大的RDD checkpoint一下，当下游RDD计算出错时，可以直接从checkpoint过的RDD那里读取数据继续算。

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object CheckPointTest {

   def main(args: Array[String]) {
      
    val sc: SparkContext = SparkContext.getOrCreate(new   SparkConf().setAppName("ck").setMaster("local[2]"))
    sc.setCheckpointDir("/Users/kinge/ck")

    val rdd: RDD[(String, Int)] = sc.textFile("").map{x=>(x,1) }.reduceByKey(_+_)
    rdd.checkpoint()

    rdd.count()
    rdd.groupBy(x=>x._2).collect().foreach(println)
   }
}

作者：那年的坏人
链接：https://www.jianshu.com/p/653ebabc8f87
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

猜你喜欢

转载自blog.csdn.net/hanyong4719/article/details/83271867

spark-checkpoint机制

Spark-checkPoint

spark的checkpoint

spark checkpoint详解

Spark Streaming中的checkpoint

Spark checkpoint机制简述

Spark Streaming Checkpoint

Spark-Cache与Checkpoint

Spark | checkpoint机制

Spark cache和checkpoint机制

spark rdd---checkpoint机制

Spark Streaming的还原药水——Checkpoint

flink超越Spark的Checkpoint机制

[spark 面试] cache/persist/checkpoint

Spark Streaming的checkpoint（更新中）

Spark中cache、persist、checkpoint

spark 的checkpoint与cache、persist的区别

spark streaming的checkpoint使用代码

spark -- RDD容错机制Checkpoint

【Spark】cache，persist，checkpoint机制

spark(九)-checkpoint的读写流程

【Spark三十八】Spark Checkpoint机制

spark中的checkpoint，持久化和checkpoint的区别

Spark Streaming如何使用checkpoint容错

spark中的cache() persist() checkpoint()之间的区别

Spark源码分析之Checkpoint的过程

Spark Streaming的恢复机制——Checkpoint

Spark源码之checkpoint方法解析

Spark持久化以及checkpoint原理分析

Spark持久化以及checkpoint剖析

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)