自定义Accumulator累加器(求和型)
应用场景:Driver端定义一个共享变量,将数据累加到该变量上,如果直接用foreach或map等迭代算子,是无法将累加的变量返回到driver端,因为累加的过程发生在Executor端。一般用于计数场景下,变量 往往声明在Driver端。
特性: 变量在Driver端,累加的过程是在Executor端,在累加的过程Executor端是无法读取其值的,如果想读取其值,
只能在Driver端才能读取。
使用:
1.创建一个Accumulator累加器的实例
2.通过sc.register()注册一个累加器
3.通过累加器实名.add来添加数据
4.通过累加器实例名.value来后去累加器的值
import org.apache.spark.{
SparkConf, SparkContext}
import org.apache.spark.util.{
AccumulatorV2, DoubleAccumulator, LongAccumulator}
object AccumulatorV2Demo_2 {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]")
val sc = new SparkContext(conf)
val nums1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9),2)
val nums2 = sc.parallelize(List(1.2,2.4,3.4,4.0,5.0,6.0,7.0,8.0,9.0),2)
//获取自定义accumulator累加器的实例
val accumulator = new MyAccumulator()
//注册
sc.register(accumulator,"acc")
nums1.foreach(x=> accumulator.add(x))
println(accumulator.value)
sc.stop()
}
}
/**
* AccumulatorV2[in,out]:需要自定义输入类型和输出类型
*/
class MyAccumulator extends AccumulatorV2[Int,Int]{
//初始化一个输出值变量
private var sum :Int =_
/**
* 检查方法是否为空
* @return
*/
override def isZero: Boolean = sum==0
/**
* copy一个新的累加器
* @return
*/
override def copy(): AccumulatorV2[Int, Int] = {
val acc = new MyAccumulator
acc.sum = this.sum
acc
}
/**
* 重置一个累加器,相当于将累加器的数据清零
*/
override def reset(): Unit = sum=0
/**
* 局部聚合:每一个分区中进行累加的过程
* @param v
*/
override def add(v: Int): Unit = {
sum += v
}
/**
* 全局聚合,将各个分区的结果进行合并的过程
* @param other
*/
override def merge(other: AccumulatorV2[Int, Int]): Unit = {
sum +=other.value
}
/**
* 最终的结果,可以对该方法中结果数据,进行操作再返回
* @return
*/
override def value: Int = sum
}