データ処理アーキテクチャ
示されるように、二つのデータ転送線、リアルタイムおよびオフライン計算フロー算出処理があります
- リアルタイムコンピューティング:イベント(ハイブ表)----(dw-event-to-collector.sh送信イベントを使用して)---->債権回収ツールコレクター-------->水路分布---- ---->カフカキャッシュ--------> FLINK・コンピューティング--------> HBaseの--------> elasticsearch
- オフライン計算:イベントHDFS --------(ハイブテーブル)----(アクティブハイブ検針)---- >> FLINK演算--------> HBaseの----- ---> elasticsearch
II。リアルタイム計算処理ツール
1.hive
- ハイブへのポジションの数:ハイブ
- ショーのデータベース;:現在のデータベースを見ます
- CDPライブラリに切り替え:CDPを使用します。
- (自動的に生成された文があり、イベントのエクスポートの設定SMHフロントエンド)のテーブルを作成します:
NOTは、テーブル名存在する場合はCREATE TABLE(
UID文字列、
EVENT_TIME BIGINTを、
文字列をtouch_point_id
(process_date文字列)で仕切ら)
FORMAT区切りROW
FIELDSは'\ tの' BY TERMINATED
LINES TERMINATED BY '\ N-'
TEXTFILEとして格納され、
- ビューtableコマンドを構築しました:ショーは、テーブルc8_shoppingを作成します。
- 現在のリストを表示します。showテーブルを。
- ビュー表の列名:降順テーブル名;
- 対応するイベントテーブルにハイブ:表tablenameパーティションにロードは、データ局所INPATH「/home/hadoop/shopping.txtを」(process_date =「2019年7月22日」)。
- 表クエリのデータ:選択*テーブル名からprocess_date =「2019年4月26日」限界10。
- 列名とデータでクエリを実行する前に、コマンド:真= hive.cli.print.header設定します。
- 表内のデータを削除します。テーブルのテーブル名を切り捨てます。
- テーブルを削除:テーブルのテーブル名をドロップ。
2.kafka
クエリのカフカの消費量、パス:/home/hadoop/kafka_2.11-0.10.2.0/bin
命令:SH kafka-console-consumer.sh --topic event_c8 --from-始まる--bootstrapサーバ172.00.0.000:9092> event_c8
3.flink
- 再起動FLINKタスク、パス:/ホーム/ Hadoopの/ CDP-ETL-ジョブ/ binに/仕事/リアルタイム
- 閉じるFLINKタスク:糸アプリケーション-killタスクid
- FLINKタスクを開始します。sh indexing-trait.sh SH calculate-trait.sh
4.hbase
- HBaseの入力:HBaseのシェルを
- 既存のテーブルを見る:リスト
- スキャン 'trait_c8'、{COLUMNS => [ 'D:t1425'、 'D:UID']}特性値を問い合わせます
- UIDクエリ削除状態:スキャン 'trait_c8'、{COLUMNS => 'D:delete_status'、FILTER => "ValueFilter(=、 'サブ:真')"}
- UIDを発見: 'trait_c8'、 'fff144eb653e7348f051307cde7db169' を取得
- テーブルのデータを削除します。「テーブル名」を切り捨て;フラッシュ「テーブル名」;
- 表を削除します:無効、テーブル、テーブルをドロップします。
- HBaseの総量ESに同期:CDP / CDP-ETL-ジョブ/ binに/仕事/バッチ/ trait-crowd-calc.sh -calcType同期増分:INCR
5.elasticsearch
クエリツールはkibanaまたはelasticsearch頭プラグ、一般的に使用されるコマンドを使用することができます。
- 查询特性:
GET / trait_c39 / trait_c39 / _searchサイズ= 1000?
{
"クエリ":{
"match_all":{}
}、
"_source":[ "t596"]
} -
查询人群:
GET / trait_c39 / trait_c39 / _searchサイズ= 1000?
{
"クエリ":{
"match_all":{}
}、
"post_filter":{ "という用語は、" {
"crowds_code": "cr197"
}}
} -
UIDを発見:
GET / trait_c33 / trait_c33 / UID-1
III。オフライン計算プロセスツール
1.hdfs
フロントページのお問い合わせアドレス:http://172.23.x.xxx:50070/explorer.html#/cdp/warehouse
表示カタログ:HadoopのFS -ls / CDP /倉庫/ C8 /オフライン/
ビューファイル:HadoopのFS -cat /cdp/warehouse/c8/offline/shopping.txt
ダウンロードデータ:HadoopのFS -get / CDP /倉庫/ C8 /オフライン/
ファイルを削除します:HadoopのFS -rm -r /cdp/warehouse/c8/offline/shopping.txt
2.azkaban
- CDP-バッチプロセスオフラインバッチデータ
DW-ETLプロセスカートリッジ番号ETL開始
HDFSのにDW-イベントツーHDFSアクティブ読み出しイベントを
削除削除するユーザのユーザ
イベントUB対のHBaseを用いて、HBaseのにイベントを送信ユーザー・プロファイル・データは、
共通のジョブが-config設定ジョブの設定情報、アドレス生成:/ホーム/ Hadoopの/ CDP- ETL-ジョブ/ジョブ-TMP /コード/
特性は、すべてのイベント一覧ALL_EVENT_TRAITの到着をトリガ
ALL_ACC_TRAITタイムライン以外に、すべてのイベント蓄積特性は、クラスリストをトリガー
ALL_REF_TRAITすべての機能は、トリガのプロパティが一覧表示変更
ALL_CROWDチャンネル内の人口リストの全額
CALC_EVENT_TRAITイベントが到着し、特性を再計算する必要がある場合、リストがトリガーされた
特性を変更CALC_TRAITトリガーとリストの特性を再計算する必要
CALC_CROWD日は人々の計算を必要とします群衆の再計算の周期に沿って群集を含むリスト、
人口のリストが削除さCLEAN_CROWD
CLEAN_TRAITは機能リスト削除され
たときに特性がエクスポートするEXPORT_TRAITのidmappingをリスト
CANCELED_TRAITが特徴は、リストの影響を許可リコール
データの重いラン、特性に割り当てられた最新のデータに歴史のtraitupdate判断のイベント・特色・カルクフル全額
、増分毎日のデータイベント・特色・カルクINCR計算ビンの数が traitupdate 日のデータのみ送信
イベント形質を-カルクのinitへ到着、traitupdate日だけのデータ送信のトリガ特性イベントを再計算
特性の変化に対する特性、特色クラウド・カルク・コンピューティングの観客を再計算するときにトリガ、タイムラインタイプ特性、データ更新サイト管理者/オペレータ長官の
IDマッピングクリーン削除廃止されたマッピング関係の
IDマッピング-INIT idMappingの初期化とマッピング関係を確立する
特性をidMapping IDマッピング・コピーをコピー
レポート群衆カウントを更新人口数をMySQLへ、cdp_crowdテーブルcrowd_scale列
すべての人々のためのレポート・メトリックタイミング計算の長期追跡かんばん指標指数と全チャンネル
CDP-バッチ処理 - CDP-クリーンジョブは、明確な一時ファイル、ファイルのエクスポートは群衆を期限切れ
- エクスポートされた群衆輸出グループ
- INIT-チャンネルの初期化チャンネル
- 特徴的な形質インポートを導入