Zhaopin HBaseのデータ解析データの可視化+

要件:

背景説明
、ITのクラスのために、全国の人材の需要より多く、IT業界の開発加速で、近年
各地域の発展のレイアウトを明確にするために「XHSグループ」の会社を、ITは、いくつかの州で会社の仕事も
調査分析。グループあなたに募集のウェブサイトによるシミュレーション研究と分析タスクを想定する場所
会社名、作業、ジョブ名、募集要件、募集の場所に到達するためにラインクロールジョブ
情報の数、およびデータクリーニングと分析を通して、最終的な分析で人気のある仕事募集、地域の数
、各領域の平均給与の違い。
これは、シミュレートされた使命である、プロジェクトチームが使用して環境を設定分散ノードのHadoopモード、使用する予定
のサーバークラスタのアプローチを、関連する情報を取得し、データをクロールを実行するクロール募集のウェブサイトで
、清潔、整理し、計算し、表現分析、およびIT業界内の都市の明確な把握を持って達成するために努力しています。
プロジェクトチームの技術スタッフとして、あなたは、技術的なソリューションのコアメンバーが表示されている従って
、この技術実証ミッションの次のステップの完了をし、技術的な報告書を提出し、私はあなたの成功を願っています。
タスク:Hadoopのプラットフォームおよび展開マネージャコンポーネント(15分)
1下のHBase)減圧パスを指定し、指定装着経路;
2)のApache-のHBase-2.0.1-binのファイルのHBaseを抽出した後、フォルダの名前を変更。 HBaseのはにファイルを
フォルダ;
3)HBaseの環境変数と環境変数を提供しているrootユーザーのみ有効になります。
4)HBaseのsite.xmlの-HBaseのインストールディレクトリを変更する;
。5)インストールディレクトリのHBase hbase-env.shを変更します。
6)HBaseのregionserversインストールディレクトリ修飾;
7)のHadoop HDFS-site.xmlののコア-site.xmlのHBaseの/ CONFに;
8)と保存開始コマンドHBaseの出力。
タスクIIデータ集録(15ポイント)
主流の募集のウェブサイトからキーをつかむ:「会社名」、「市の仕事」、「仕事へ

シーク、「」新入社員の数、「賃金」(形式:「基本給-キャップ」)、「名前」(ジョブ
名)、「詳細」(ジョブの詳細)、および使用可能な形式として保存します。
1)crawpositionと呼ばれるプロジェクトを作成し;
2)タスクを定義するフィールドをクロール指定
3)対応するクローラ要求を構築する;
4)指定されたファイルの保存場所;
5)キーデータをクロール;
6)ストアデータをHDFSファイルシステムに。
タスク3、データクリーニングおよび分析(2255点)
1)手順をクリーニングデータの書き込み、編集したプログラムは、JARパッケージに包装し、保存された;
2)洗浄後の洗浄に要するデータ、各フィールドのデータをクロール使用可能なフォーマットを格納するステップと、
3)のHBaseを洗浄した後、データベースに結果を保存する;
4)適切なフィールドを選択し、その結果を新しいCLEANTABLEテーブルに書き込まれ、テーブルデータ図である。
5)クエリ「データ」のスキル要件に関連する位置、新table_bigdataは、クエリ結果の書き込み
テーブルを;
6)keycountテーブルを作成し、出現統計の数は、シングルコアのスキル以下ました。
下記のコアスキルキーワード:注:C ++、スカラ座、FFlume、 FLINK、ETL、 数学、データウェアハウス
データベース、HBaseの、Hadoopの、パイソン、ジャワ 、カフカ、嵐、Linuxでは、HBaseの、スパーク。
タスク4、データの視覚化(20分)
、データ可視化プレゼンテーションの分析をデータ分析の結果を視覚化します。
1)前方端部に配置された降順で、地域の合計動員を示します。
2)全体の平均賃金の差を示しており、フロントエンドで表示;
3)全体平均賃金の差を示しています。
タスク5:包括解析(15)は
、以下の結合されたデータの分析結果分析を入力してください:

1)の結果に基づいて
都市3人の動員の最大数に記載されています。
2)地域レベルによれば
、最も高い平均給与の都市を識別するために、平均賃金の分析。
3)地域レベルによると
杭州の平均賃金を見つけるために、平均賃金の分析最初のいくつかのランク付け。
4)、簡単に「XHS記載してください
あなたが最も適した都市を推奨し、R&Dセンターを設立するグループ」、およびその理由。

 

実装:

リンクします。https://pan.baidu.com/s/1fWoUPRL9KeVsZVpA9ZgXcA 
抽出コード:oolu 
ああ操作がより便利に、このオープンBaiduのネットワークディスク電話アプリケーションの内容をコピー

おすすめ

転載: blog.csdn.net/weixin_40903057/article/details/90599368