変換操作

DSTREAM変換動作は含まない
(履歴を記録せずに、現在到達統計バッチ)は、動作状態の遷移をマップflatMapフィルタ配分カウント減らす組合countByValue reduceByKeyは(K、(V、W))を参加変換コグループ
操作(スライドを切り替えた状態を状態遷移動作)reduceByKeyAndWindow)()スライディングウィンドウを持つことで
、計算減らすために離れて逆の操作から、データウィンドウを減らすことになる新しいウィンドウにcountByKeyAndWindow()データ
#を!は/ usr / binに/ ENVのpython3

print_function from__future__import
インポートSYS
pysparkインポートSparkContextから
pyspark.streamingインポートStreamingContextのから
if__name __ = "メイン":
!IF LEN(sys.argvの)= 3:
印刷( "用法:WindowedNetworkWordCount.py"、ファイル= sys.stderror)
終了( - 1)
SC = SparkContext(appNameは= "PythonStreamingWindowedNetworkWordCount")
SSC = StreamingContext(SC、10)
ssc.checkpoint( "ファイル:/// USR /ローカル/スパーク/ MyCode /ストリーミング/ソケット/チェックポイント")にチェックポイント#データ損失防止するために、データ保存
ラインを= ssc.socketTextStream(sys.argvの[1]、INT(sys.argvの[2]))
カウント= lines.flatMap(ラムダX:x.split( ""))。地図(ラムダワード(単語、1))reduceByKeyAndWindow (ラムダA、B :. + bの、ラムダA、B:AB、30,10)# のみ統計窓部、+ bは低減動作である、ABは逆の動作であります30はウィンドウ・サイズで、ウィンドウ10は、スライド可能な時間間隔であります
全く逆関数が存在しない場合は#、すべてのウィンドウは、コンピューティングの歴史を表すデータを持って、逆関数は、スライディングウィンドウを切り取っするたびに、新しいWindowsは、これらの計算のミックスに追加することである
counts.pprint()
ssc.start()
SSC .awaitTermination

#Ncはソース端末データを構築し、データをノックすることができる
CD USR /ローカル/スパーク/ MyCode /ストリーミング/ソケット
NC -lk 9999
#、端末計算フロー作成
CDは/ usr / local /スパーク/ MyCode /ストリーミング/ソケット
/ USR /ローカル/スパーク/ binに/火花提出
WindowedNetworkWordCount.pyを

公開された25元の記事 ウォンの賞賛0 ビュー369

おすすめ

転載: blog.csdn.net/qq_45371603/article/details/104654544