需求：

背景描述
近年来随着IT产业的加速发展，全国各地对IT 类的人才需求也越来越多，
“XHS 集团”为了明确公司在各区域的发展布局，在多个省份进行IT公司岗位
情况调研分析。你所在的小组将承担模拟调研分析的任务，通过在招聘网站进
行招聘信息的爬取，获取到公司名称、工作地点、岗位名称、招聘要求、招聘
人数等信息，并通过数据的清洗和分析，最终分析出各地区热门岗位招聘人数，
各地区平均薪资的差异。
本次为模拟任务，项目组计划使用分布式节点Hadoop模式，环境搭建采用
服务器集群方式，通过在招聘网站上爬取到的相关信息，实现对数据进行爬取、
清洗、整理、计算、表达、分析，力求实现对各城市IT行业拥有更清晰的掌握。
作为该项目组的技术人员，你们是这次技术方案展示的核心成员，请按照
下面步骤完成本次技术展示任务，并提交技术报告，祝你们成功。
任务一： Hadoop 平台及组件的部署管理（ 15 分）
1）将指定路径下的Hbase 安装包解压指定路径下；
2）把解压后的 apache-Hbase-2.0.1-bin 文件夹更名为 Hbase；进入 Hbase 文件
夹；
3）设置Hbase 环境变量，并使环境变量只对当前root 用户生效；
4）修改Hbase 安装目录下hbase-site.xml；
5）修改Hbase 安装目录下hbase-env.sh；
6）修改Hbase 安装目录下regionservers；
7）把 hadoop 的hdfs-site.xml 和core-site.xml 放到hbase/conf 下；
8）启动Hbase 并保存命令输出结果。
任务二、数据采集（ 15 分）
从主流招聘网站中抓取以下关键字：“公司名称”、“工作城市”、“工作要

求”、“招聘人数”、工资情况”（格式：‘底薪-上限’）、“name”(岗位
名称)、“detail”(职位详情)，并保存为可用格式。
1) 创建项目名为crawposition；
2) 定义任务指定的爬取字段；
3) 构建相应爬虫请求；
4) 指定文件存储位置；
5) 爬取关键字数据；
6) 将数据存储到HDFS文件系统。
任务三、数据清洗与分析（2 25 5 分）
1) 编写数据清洗程序，将编辑完成的程序打包成jar程序包并保存；
2) 对爬取出的数据进行清洗，将清洗后的数据各字段存储为可用格式；
3) 将清洗后结果保存至Hbase数据库中；
4) 筛选相应字段，将结果写入新建cleantable表中，并查看该表数据；
5) 查询“数据”相关岗位的技能要求，将查询结果写入新建table_bigdata
表中；
6) 创建keycount表并分别统计下列单个核心技能的出现次数。
注：核心技能关键词如下：c++、Scala、FFlume、Flink、ETL、数学、数据仓
库、Hbase、Hadoop、Python、Java、Kafka、Storm、Linux、Hbase、Spark。
任务四、数据可视化（ 20 分）
为直观呈现数据分析的结果，对分析数据可视化呈现。
1) 展示各区域招聘总量，并按降序排列在前端显示；
2) 展示各地平均工资的差异，并在前端显示；
3) 展示各地平均工资的差异。
任务五：综合分析（ 15 ）
请结合数据分析结果编写下列分析报告：

1）根据分析结果
列举三个招聘岗位数量最多的城市。
2）根据各区域平
均工资分析结果，找出平均工资最高的城市。
3）根据各区域平
均工资分析结果，找出杭州市的平均工资排名第几。
4）请简述，“XHS
集团”要建立研发中心，请你推荐最适合的城市，并说明原因。

实现：

链接：https://pan.baidu.com/s/1fWoUPRL9KeVsZVpA9ZgXcA
提取码：oolu
复制这段内容后打开百度网盘手机App，操作更方便哦

智联招聘数据Hbase数据分析+可视化

需求：

实现：

猜你喜欢