---
StreamingContextは火花シェル、リアルタイム監視フォルダによって開始しました
図1は、オープン端末1は、次のように入力します。
輸入org.apache.spark.streaming._ // 5秒に応じて、入力データストリームのデータのセグメンテーションをSparkStreaming ヴァルSSC =新しいStreamingContext(SC、秒(5)) ヴァルlinesDS = ssc.textFileStream( "ファイル:///ユーザ/ウォーカー/学ぶ/ mycode /火花/ TEST_DATA / LOG_FILE") ヴァルwordsCountDS = linesDS.flatMap(_。スプリット(」「))。()、_(1)マップ。reduceByKey(_ _ +) wordsCountDS.print() ssc.start() //火花シェルで、必要性がこれを書くために、直接Ctrl + Cプログラムを終了します ssc.awaitTermination()
2ターミナルを開き2、新しいファイルログファイルを追加するには、プログラムの起動および実行する工程の後に、ログファイルのフォルダを作成します
$猫word3.txt huahua Hadoopの火花 huahua Hadoopの火花 huahua Hadoopの火花 huahua Hadoopの火花 huahua Hadoopの火花 huahua Hadoopの火花 huahua Hadoopの火花 huahua Hadoopの火花
あなたは、リアルタイム統計プログラムを取得するために3つの新しいファイルを追加し、その5秒にした後。
------------------------------------------- 時間:1581905830000ミリ ------------------------------------------- ------------------------------------------- 時間:1581905835000ミリ ------------------------------------------- (Hadoopの、8) (スパーク、8) (Huahua、8) ------------------------------------------- 時間:1581905840000ミリ ------------------------------------------- -------------------------------------------
---