SparkStreaming第一のデモ

---

StreamingContextは火花シェル、リアルタイム監視フォルダによって開始しました

図1は、オープン端末1は、次のように入力します。

輸入org.apache.spark.streaming._
// 5秒に応じて、入力データストリームのデータのセグメンテーションをSparkStreaming
ヴァルSSC =新しいStreamingContext(SC、秒(5))

ヴァルlinesDS = ssc.textFileStream( "ファイル:///ユーザ/ウォーカー/学ぶ/ mycode /火花/ TEST_DATA / LOG_FILE")

ヴァルwordsCountDS = linesDS.flatMap(_。スプリット(」「))。()、_(1)マップ。reduceByKey(_ _ +)

wordsCountDS.print()

ssc.start()

//火花シェルで、必要性がこれを書くために、直接Ctrl + Cプログラムを終了します
ssc.awaitTermination() 

 

2ターミナルを開き2、新しいファイルログファイルを追加するには、プログラムの起動および実行する工程の後に、ログファイルのフォルダを作成します

$猫word3.txt 
huahua Hadoopの火花
huahua Hadoopの火花
huahua Hadoopの火花
huahua Hadoopの火花
huahua Hadoopの火花
huahua Hadoopの火花
huahua Hadoopの火花
huahua Hadoopの火花

 

あなたは、リアルタイム統計プログラムを取得するために3つの新しいファイルを追加し、その5秒にした後。

-------------------------------------------
時間:1581905830000ミリ
-------------------------------------------

-------------------------------------------
時間:1581905835000ミリ
-------------------------------------------
(Hadoopの、8)
(スパーク、8)
(Huahua、8)

-------------------------------------------
時間:1581905840000ミリ
-------------------------------------------

-------------------------------------------

 

---

おすすめ

転載: www.cnblogs.com/wooluwalker/p/12320703.html