spark自定义累加器（一）

自定义Accumulator累加器（求和型）

应用场景：Driver端定义一个共享变量，将数据累加到该变量上，如果直接用foreach或map等迭代算子，是无法将累加的变量返回到driver端，因为累加的过程发生在Executor端。一般用于计数场景下，变量往往声明在Driver端。

特性：变量在Driver端，累加的过程是在Executor端，在累加的过程Executor端是无法读取其值的，如果想读取其值，
只能在Driver端才能读取。
使用：
1.创建一个Accumulator累加器的实例
2.通过sc.register()注册一个累加器
3.通过累加器实名.add来添加数据
4.通过累加器实例名.value来后去累加器的值

import org.apache.spark.{
    
    SparkConf, SparkContext}
import org.apache.spark.util.{
    
    AccumulatorV2, DoubleAccumulator, LongAccumulator}

object AccumulatorV2Demo_2 {
    
    
  def main(args: Array[String]): Unit = {
    
    
    val conf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]")
    val sc = new SparkContext(conf)
    val nums1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9),2)
    val nums2 = sc.parallelize(List(1.2,2.4,3.4,4.0,5.0,6.0,7.0,8.0,9.0),2)
    //获取自定义accumulator累加器的实例
    val accumulator = new MyAccumulator()
    //注册
    sc.register(accumulator,"acc")
    nums1.foreach(x=> accumulator.add(x))
    println(accumulator.value)
    sc.stop()
  }
}

/**
 * AccumulatorV2[in,out]：需要自定义输入类型和输出类型
 */
class MyAccumulator extends  AccumulatorV2[Int,Int]{
    
    
  //初始化一个输出值变量
  private  var sum :Int =_

  /**
   * 检查方法是否为空
   * @return
   */
  override def isZero: Boolean = sum==0

  /**
   * copy一个新的累加器
   * @return
   */
  override def copy(): AccumulatorV2[Int, Int] = {
    
    
    val acc = new MyAccumulator
    acc.sum = this.sum
    acc
  }

  /**
   * 重置一个累加器，相当于将累加器的数据清零
   */
  override def reset(): Unit = sum=0

  /**
   * 局部聚合：每一个分区中进行累加的过程
   * @param v
   */
  override def add(v: Int): Unit = {
    
    
    sum += v
  }

  /**
   * 全局聚合，将各个分区的结果进行合并的过程
   * @param other
   */
  override def merge(other: AccumulatorV2[Int, Int]): Unit = {
    
    
    sum +=other.value
  }

  /**
   * 最终的结果，可以对该方法中结果数据，进行操作再返回
   * @return
   */
  override def value: Int = sum
}

spark自定义累加器（一）

自定义Accumulator累加器（求和型）

猜你喜欢