一般的なオペレータの概要(5)スパーク - groupByKey

キーごとにグループ化され、返す[K、反復処理可能[V]]

 

//省略
ヴァルARR一覧=(( "A" ,. 1)、( "B"、2)、( "A"、2)、( "B" ,. 3))
ヴァルRDD = sc.parallelize(ARR)
のVal = rdd.groupByKey groupByKeyRDD()
groupByKeyRDD.foreach(のprintln)
sc.stopの

#(B、CompactBuffer(2 ,. 3)) 
#(CompactBuffer(1、2))


の後の数字キー統計要約素子アレイの
スカラ> groupByKeyRDD.mapValues(X => x.size).foreach(のprintln)#(A、2)

#(B、2)

 

おすすめ

転載: www.cnblogs.com/pocahontas/p/11334579.html