長時間のブログが経過。
テストは、クリーニング処理と可視化、三つの段階を含み、オブジェクトは、結果ファイルのデータが処理される内で達成され、および統計が表示します。
ステージ データクリーニング:データに従ってクリーニング、およびインポートデータの洗濯ハイブデータベース
コンテンツは、データ・フォーマットが必要ですが - >
IP:199.30.25.88
時間:10/11月/ 2016:00:01:03 0800
交通:62
関連記事:記事/ 11325
ビデオ:ビデオ/ 3235
となり - >
IP --->都会(IP)
日付 - >時間:2016年11月10日夜12時01分03秒
日:10
交通:62
タイプ:記事/ビデオ
ID:11325
しかし、誰のMapReduceクリーニング操作して、必要に応じて、フォーマット変更時間をマッピングするために使用することができ、後で時間を使用していませんでした。
清掃さらにニーズ、テキストがして、より多くのスペースをファイルやシェルのMapReduceのテキスト処理が行われるトラフィック。(私は後者をお勧めします)
そして、直接内部のハイブをインポートします。
フェーズII データ処理:3統計的なタスク
統計が比較的簡単なので、私は(SQL言語の性質)を完了したがHiveQLと、MapReduceのJavaプログラムを使用していませんでした。しかし、その後のMapReduceを使用しますが再び実現。
- 訪問統計トップ10最も人気のあるビデオ/記事(ビデオ/記事)
IDによる結果群から倍のID、種類、数(*)を選択し、時間DESC制限10によって型ため、
- 統計によると、市内で最も人気のあるコースのTop10(IP)
選択b.id、b.ip、b.type、b.timesから(
(a.timesのDESCによってa.ip順序によってパーティション)上のn(ID、IP、タイプによって結果グループから(*)時間をカウントし、ID、IP、タイプを選択)Aから。*、ROW_NUMBER()を選択します
)Bここで、BN <= 10。
- トップ10最も人気のあるコース(トラフィック)トラフィックの統計によると、
ID、種類、数(トラフィック)IDで結果グループからトラフィック、限界10 DESC倍型の順序を選択します。
書き込みSQL文は、あなたが直接結果を確認するためにハイブを呼び出すことができ、便利ですが、全体的な構造は非常に明確で、私は多くのことを容易にするであろう、この構造に従ってのMapReduceプログラムを完了することができます。
第III相 データ視覚化:統計結果は、グラフィカル表示モードを介して展開、MySQLデータベースに注ぎ
このプロセスはまだ完了していませんが、MySQLデータベースの内部にsqoopクエリ結果で、可視化した後echartsとライン上で行うこと。