教室のテストデータクレンジング

トピックス要件:

1、  データクリーニング:クリーニングデータに応じて、インポートデータ洗浄ハイブのデータリポジトリ

二段データクリーニング:

1 )第1段階:必要な情報は、元のログから抽出され

IP:199.30.25.88

時間:10/11月/ 2016:00:01:03 0800

交通:62

記事: Articleこの記事は、/ 11325でした

ビデオ:ビデオ/ 3235

2 )第二段階:から抽出された情報に基づいて細かい操作を行います

IP ---> の市IP

日付 - >時間:2016年11月10日夜12時01分03秒

日:10

交通:62

タイプ:記事/ビデオ

ID:11325

3 ハイブデータベーステーブル構造

テーブルデータを作成する(IP列、時間文字列、日文字列、交通BIGINT、

文字列型、id文字列)

2 、データ処理:

統計最も人気のあるビデオ/ 記事トップ10の訪問(ビデオ/ Articleこの記事でした

最も人気のある都市の統計によると、トップ10のコース(IP

最も人気のトラフィックの統計によると、トップ10のコース(トラフィック

3 、データ視覚化:統計結果は、注ぎのMySQL データベースをグラフィカルな表示モードを介して展開。

 

結果とスクリーンショットは:現在、最初のステップを完了します

データを洗浄した後:

 

 

 

ハイブとインポートデータでテーブルを作成します。

 

 

 

おすすめ

転載: www.cnblogs.com/zwang/p/11853999.html