ハイブ+ジョブデータ収集データ解析データの可視化+

1.需要

説明背景
IT産業の急速な発展とともに、近年では、ITのクラスのために要求する全国の人々の数は絶えずしている
IT業界の人材育成の今後の方向性を明確にするために「XHSグループ」、増加、地方ITの数で好調
調査ジョブの部門分析。当社グループは、あなたの場所が募集を通じて、シミュレーションの研究と分析タスクを仮定します
会社名、勤務先、ジョブ名、募集要件に取得するには、クロール求人情報サイト
新兵の数についての情報、およびデータクリーニングや分析を通じて、現在のIT業界の最終的な分析、人気の投稿、
そのような情報の専門家としての仕事に関連大量のデータ、および視覚的なプレゼンテーション。
これは、シミュレートされた使命である、プロジェクトチームが使用して環境を設定分散ノードのHadoopモード、使用する予定
のサーバークラスタのアプローチを、関連する情報を取得し、データをクロールを実行するクロール募集のウェブサイトで
、清潔、整理し、計算し、表現分析、IT担当者のための就職情報を達成するために努力し、より明確なヤシの持つ
グリップを。
プロジェクトチームの技術スタッフとして、あなたは、技術的なソリューションのコアメンバーが表示されている従って
、この技術実証ミッションの次のステップの完了をし、技術的な報告書を提出し、私はあなたの成功を願っています。
タスク:Hadoopのプラットフォームおよび展開マネージャコンポーネント(15分)
指定されたディレクトリを抽出するために指定されたパス上の1)ハイブインストールパッケージ;
2)のApache-ハイブ-1.1.0-binのファイルは、ハイブを抽出した後、フォルダの名前を変更;
3)ハイブは、環境変数を設定し、環境変数は、現在のrootユーザーに有効になります;
4)名前を変更したファイルハイブハイブ-default.xml.templateインストールディレクトリをsite.xmlの-ハイブのために;
5)インストールディレクトリハイブに作成されます一時フォルダ;
6)新しい及びハイブ-site.xml構成ファイルは、MySQLのための記憶場所における「ハイブ記憶素子」を実現するために
、データベース
7)ハイブ初期メタデータを、
8)ハイブが開始されます。

タスクIIデータ収集(15点)
1)データ項目を抽出し、各種採用サイトからデータをフェッチし、少なくとも以下のフィールドを含む:「会社名
」「仕事の都市」、「作業要求」、「採用数」賃金「(形式:
給与-リミット')、」名前「(ジョブ名)、」詳細「(ジョブの詳細)、及び保存;
2)クロールデータはHadoopのインターネットデータクレンジングと分析をインポートする必要があり、データHDFSのに保存する
。システム
タスク3、データクリーニングおよび分析(2255ポイント)
、1のデータ解析と可視化を容易にするため、データはNULLが含まれていないパージ、清掃のために取り外さ登る必要が
清掃した後、データ・フィールドの位置情報をスプリットデータクリーニング各フィールドの垂直位置データ「」間
。MapReduceのプログラムを使用して
1)のMapReduceプログラムを洗浄するデータを用いて調製され(元のデータワードに含まれる位置を説明する
)の結果と、
2)優れたファイルのアップロードの準備HDFSは、生データを洗浄し;
3)洗浄データウェアハウスハイブにロードされたデータ
2、データクリーニングをきれいにする必要があります 配列にアップロードジャーパッケージは、動作のHadoopプラットフォームに移行し、洗浄した後
、その後のアプリケーションのために、データベースに保存された結果ハイブ。
1)/ルートディレクトリのHadoopプラットフォームにアップロードジャーパッケージ;
2)MapReduceは、タスクを実行し、書き込み不足し;
3)成功/クリーンHDFSファイルシステムディレクトリに格納されたデータの後に実行します。
3)cleandataテーブルデータを洗浄した後、タスクデータベースハイブに格納されています。
図3に示すように、統計データの次の分析を完了し、HQLコマンドラインを実行する
ジョブの動員数1)統計は、結果がCLEANTABLEテーブルに書き込まれている;
2)クエリ「データ」ジョブ関連のスキルの要件、クエリ書き込まtable_bigdataテーブルの結果。

3)keycount.sqlスクリプトハイブを実行し、ビューがテーブルにすべてのコアスキルkeycount表示されます
回。
下記のコアスキルキーワード:注:C ++、スカラ座、FFlume、 FLINK、ETL、 数学、データウェアハウス、
HBaseの、Hadoopの、パイソン、ジャワ、カフカが住んでいた、嵐、Linuxでは、ハイブ、スパーク。
タスク4は、データの視覚化(20ポイント)
以下のようにデータの視覚化を提示:
1)トップ10ホットジョブの最大数の使用は、現在の募集の指定された方向を示すヒストグラム
採用「大きなデータ」に関連した差異の数を2)折れ線グラフを用いて示します。
3)ワードクラウドの方法を通じて、「ビッグデータ」関連のポジションを必要な知識とスキルを視覚的に表示するために。
タスク5:包括解析(15)1)
の分析に基づいて、ビッグデータジョブは何が含まれているために必要な主なスキル、そして精巧な経営説明
の、
市場の需要に応じてIT業界のエンジニアリングトレーニングプログラムの2)分析をし、理由の詳細を説明します;
3)市場の需要分析、人材育成とどのようなビッグデータ業界の方向に応じて、とその理由について詳しく説明;
4)簡潔に記述してくださいどのような方向、将来のIT業界の人材育成「XHSグループ」はい。

 

2.実装

リンクします。https://pan.baidu.com/s/1dHLhFtAVThOr5pGecO4g6w 
抽出コード:zvif 
ああ操作がより便利に、このオープンBaiduのネットワークディスク電話アプリケーションの内容をコピー

おすすめ

転載: blog.csdn.net/weixin_40903057/article/details/90599231