トピックス要件:
1、 データクリーニング:クリーニングデータに応じて、インポートデータ洗浄ハイブのデータリポジトリ。
二段データクリーニング:
( 1 )第1段階:必要な情報は、元のログから抽出され
IP:199.30.25.88
時間:10/11月/ 2016:00:01:03 0800
交通:62
記事: Articleこの記事は、/ 11325でした
ビデオ:ビデオ/ 3235
( 2 )第二段階:から抽出された情報に基づいて細かい操作を行います
IP ---> 市の市(IP )
日付 - >時間:2016年11月10日夜12時01分03秒
日:10
交通:62
タイプ:記事/ビデオ
ID:11325
( 3 )ハイブデータベーステーブル構造:
テーブルデータを作成する(IP列、時間文字列、日文字列、交通BIGINT、
文字列型、id文字列)
2 、データ処理:
・統計最も人気のあるビデオ/ 記事トップ10の訪問(ビデオ/ Articleこの記事でした)
・最も人気のある都市の統計によると、トップ10のコース(IP )
・最も人気のトラフィックの統計によると、トップ10のコース(トラフィック)
3 、データ視覚化:統計結果は、注ぎのMySQL データベースをグラフィカルな表示モードを介して展開。
結果とスクリーンショットは:現在、最初のステップを完了します
データを洗浄した後:
ハイブとインポートデータでテーブルを作成します。