广播变量和累加器

1.广播变量
广播变量理解图
在这里插入图片描述
广播变量使用
val conf = new SparkConf()
conf.setMaster(“local”).setAppName(“brocast”)
val sc = new SparkContext(conf)
val list = List(“hello xasxt”)
val broadCast = sc.broadcast(list)
val lineRDD = sc.textFile("./words.txt")
lineRDD.filter { x => broadCast.value.contains(x) }.foreach { println}
sc.stop()
注意事项
能不能将一个RDD使用广播变量广播出去?
不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。
广播变量只能在Driver端定义,不能在Executor端定义。
在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。
2.累加器
累加器理解图
在这里插入图片描述
累加器的使用
val conf = new SparkConf()
conf.setMaster(“local”).setAppName(“accumulator”)
val sc = new SparkContext(conf)
val accumulator = sc.accumulator(0)
sc.textFile("./words.txt").foreach { x =>{accumulator.add(1)}}
println(accumulator.value)
sc.stop()
注意事项
累加器在Driver端定义赋初始值,累加器只能在Driver端读取,在Excutor端更新。

猜你喜欢

转载自blog.csdn.net/qq_20174285/article/details/86021412