Sparkカスタムアキュムレータ(2つ)

カスタムワード統計アキュムレータ

アプリケーションシナリオ:ドライバー側が共有変数を定義し、データを変数に蓄積します。foreachやmapなどの反復演算子を直接使用する場合、蓄積プロセスは実行側で行われるため、蓄積された変数をドライバー側に戻すことはできません。シナリオのカウントで一般的に使用される変数は、多くの場合、ドライバー側で宣言されます。

機能:変数はドライバー側にあり、累積プロセスはエグゼキューター側にあります。累積プロセスでは、エグゼキューター側はその値を読み取ることができません。その値を読み取りたい場合
は、ドライバー側でのみ読み取ることができます
使用法
1。アキュムレータのインスタンスを作成します
2. sc.register()を使用してアキュムレータを登録し
ます3.アキュムレータの実際の名前を使用
してデータ追加します。追加4.アキュムレータインスタンス名を渡します。値をアキュムレータ値との間で渡します。

package com.jxlg.accumlator

import org.apache.spark.util.AccumulatorV2
import org.apache.spark.{
    
    SparkConf, SparkContext}

import scala.collection.mutable

object AccumulatorV2Demo_3 {
    
    
  def main(args: Array[String]): Unit = {
    
    
    val conf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]")
    val sc = new SparkContext(conf)
    val nums = sc.parallelize(List("uzi jk theshy","jk theshy","uzi ","ksar theshy"),2)
    val accumulator =new MyAccumulator_wc()
    sc.register(accumulator,"wc")
    nums.foreach(line=> accumulator.add(line))
    println(accumulator.value)

    sc.stop()
  }
}
class  MyAccumulator_wc extends  AccumulatorV2[String,mutable.HashMap[String,Int]]{
    
    
  private  val accMap= new mutable.HashMap[String,Int]()
  override def isZero: Boolean = accMap.isEmpty

  override def copy(): AccumulatorV2[String, mutable.HashMap[String, Int]] = {
    
    
    val acc =new MyAccumulator_wc
    accMap.synchronized{
    
    
      acc.accMap ++=accMap
    }
    acc
  }

  override def reset(): Unit = accMap.clear

  override def add(v: String): Unit = {
    
    
    val splited: Array[String] = v.split(" ")
    splited.map(word => {
    
    
      accMap.get(word) match {
    
    
        case Some(x) => accMap += ((word,x+1))
        case None => accMap += ((word,1))
      }

    })
  }

  override def merge(other: AccumulatorV2[String, mutable.HashMap[String, Int]]): Unit = {
    
    
    other match {
    
    
      case a: AccumulatorV2[String, mutable.HashMap[String, Int]] => {
    
    
        for((k,v)<- a.value){
    
    
          accMap.get(k) match{
    
    
            case Some(x) => accMap += ((k,x+v))
            case None => accMap +=((k,v))
          }
        }
      }
    }
  }

  override def value: mutable.HashMap[String, Int] = accMap
}

おすすめ

転載: blog.csdn.net/qq_42706464/article/details/108440558