[マップリデュース、ハイブ]教室試験

  長時間のブログが経過。


   テストは、クリーニング処理と可視化、三つの段階を含み、オブジェクトは、結果ファイルのデータが処理される内で達成され、および統計が表示します。

ステージ  データクリーニング:データに従ってクリーニング、およびインポートデータの洗濯ハイブデータベース

  コンテンツは、データ・フォーマットが必要ですが - >

IP:199.30.25.88

時間:10/11月/ 2016:00:01:03 0800

交通:62

関連記事:記事/ 11325

ビデオ:ビデオ/ 3235

  となり - >

IP --->都会(IP)

日付 - >時間:2016年11月10日夜12時01分03秒

日:10

交通:62

タイプ:記事/ビデオ

ID:11325

  しかし、誰のMapReduceクリーニング操作して、必要に応じて、フォーマット変更時間をマッピングするために使用することができ、後で時間を使用していませんでした。

  清掃さらにニーズ、テキストがして、より多くのスペースをファイルやシェルのMapReduceのテキスト処理が行われるトラフィック。(私は後者をお勧めします)

  そして、直接内部のハイブをインポートします。

フェーズII  データ処理:3統計的なタスク

  統計が比較的簡単なので、私は(SQL言語の性質)を完了したがHiveQLと、MapReduceのJavaプログラムを使用していませんでした。しかし、その後のMapReduceを使用しますが再び実現。

  • 訪問統計トップ10最も人気のあるビデオ/記事(ビデオ/記事)

    IDによる結果群から倍のID、種類、数(*)を選択し、時間DESC制限10によって型ため、

  • 統計によると、市内で最も人気のあるコースのTop10(IP)

    選択b.id、b.ip、b.type、b.timesから(

      (a.timesのDESCによってa.ip順序によってパーティション)上のn(ID、IP、タイプによって結果グループから(*)時間をカウントし、ID、IP、タイプを選択)Aから。*、ROW_NUMBER()を選択します

    )Bここで、BN <= 10。

  • トップ10最も人気のあるコース(トラフィック)トラフィックの統計によると、

    ID、種類、数(トラフィック)IDで結果グループからトラフィック、限界10 DESC倍型の順序を選択します。

  書き込みSQL文は、あなたが直接結果を確認するためにハイブを呼び出すことができ、便利ですが、全体的な構造は非常に明確で、私は多くのことを容易にするであろう、この構造に従ってのMapReduceプログラムを完了することができます。

第III相  データ視覚化:統計結果は、グラフィカル表示モードを介して展開、MySQLデータベースに注ぎ

  このプロセスはまだ完了していませんが、MySQLデータベースの内部にsqoopクエリ結果で、可視化した後echartsとライン上で行うこと。

おすすめ

転載: www.cnblogs.com/limitCM/p/11853884.html