スパークプロジェクト戦闘エンタープライズクラス、ソース深さ分析、機械学習、データ解析

学習プロセススパーク蒸しの学生は、それが一緒に、小さな実用的なプロジェクトの背景により、学んだスパーク蒸し、HBaseの、カフカの文字列を、この時間をプロジェクトの練習の手を欠いている可能性があります。

1.プロジェクト

1.1プロジェクトの流れ

着信データソースカフカのJSON形式を読み取るデータ・ストリームをストリーミングスパーク、バッチ洗浄で完了し、データをフィルタリングし、次に書かれた新しい文字列JSON下流カフカにスプライシング補足HBaseのデータを、読み出されます。

1.2詳細なプロジェクト

2.環境の準備

2.1コンポーネントがインストールされています

あなたはまず、必要な大規模なデータ・コンポーネントをインストールし、次のようにバージョン情報があるインストールする必要があります。

スパーク2.1.2

カフカ0.10.0.1

HBaseの1.2.0

飼育係3.4.5

2.2 HBaseのテーブルの作成

HBaseのテーブルの学生、CFという名前の列ファミリを作成し、2つのデータに保存されています

2.3カフカトピックを作成

カフカ2つのトピック、すなわちkafka_streaming_topic、hello_topicを作成します。

3.コード

3.1プロジェクトの構造

 

簡単な説明:

出力、スコア、出力は3 Java Beanがあります

MsgHandlerは、そのような豆をマージするなどの操作を> 60 =フィルタ、豆JSONの結果をJSON形式を決定することを含む、データ・ストリームの操作を実行する、必須フィールドをチェック

CONFIGMANAGERは、設定パラメータを読み込み、

conf.properties構成情報

主な機能は、プログラムであるStreamingDemo

HBaseUtils HBaseのツール

StreamingDemoTestテストクラス

3.2主な機能

初期のスパーク、及び構成情報の一部が読み出され、読み出しデータカフカKafkaUtils.createDirectStream。

 

次に、いくつかの操作の完了後:

清掃およびスクリーニングデータを、RDDのリターン(ID、ScoreBean)

IDリストの構成は、バルク、構成(ID、studentJsonStr)resMapは、後続のOを容易に設定されている(1)クエリからHBaseのクエリの結果を設定します

遍历每条数据,从resMap查到结果,合并出新的Java Bean

Java Bean to Json String,并写入到kafka

 

4. 结果

开启kafka producer shell, 向kafka_streaming_topic写数据

开启kafka consumer shell, 消费hello_topic

5. 总结

通过这个小项目,希望大家可以掌握基本的Spark Streaming流处理操作,包括读写kafka,查询hbase,spark streaming Dstream操作。篇幅有限,全部代码就不一一列出了,完整代码在

おすすめ

転載: www.cnblogs.com/spark88/p/11225820.html