1. 需求：

1.1 背景描述

随着中国经济的迅速发展，广大人民群众的收入也在不断提高，但是仍有
一部分人群需要在经济上获得帮助，每月领取城市居民最低生活保障，为了更
好的实现精准扶贫，你所在的小组需要通过给出的“某市低保人群信息表”，
通过采集其中低保人口收入，低保人口中失业人数，视力或听力残疾人数等信
息，分析各地区低保人群数量，人均收入情况，近几年收入总体情况等信息，
为实现精准扶贫给予数据上的佐证。
为完成该项任务，你所在的小组计划选用在业界广泛应用的“Python”语言，
作为整个项目的基础语言，并综合利用 MySQL、Matplotlib、pandas、Hive 等技
术提高开发效率并实现项目要求，本次项目环境搭建采用服务器集群方式，通
过对“某市低保人群信息表”的采集、清洗与分析，力求实现对精准扶贫给予
数据支撑。
任务一： Hadoop 平台及组件的部署管理（ 15 分）
1 1 、环境部署
1）Hadoop系统存储于“/usr/local/hadoop”，要求配置hadoop.tmp.dir目录
存放位置为“/usr/local/adoop/tmp”
2）配置hadoop的 dfs.namenode.name.dir 为/usr/local/adoop/tmp/dfs/name；
3）配置hadoop的 dfs.datanode.data.dir 为/usr/local/adoop/tmp/dfs/data；
4）格式化NameNode；
5）开启NameNode和 DataNode守护进程。
2 2 、网络配置（所有节点）
1）修改当前机器名；
2）退出当前登录，并重新登录；
3）关闭防火墙；
4）修改当前机器IP；
5）配置hosts文件；
6）重启网络；
7）创建一个普通用户（也可以在安装CentOS系统过程中在图形界面创建
hadoop 用户，密码设置为hadoop）。
3 3 、 SSH无密码验证配置
Hadoop运行过程中需要管理远端Hadoop守护进程，在 Hadoop启动以后，
NameNode是通过SSH（Secure Shell）来启动和停止各个DataNode 上的各种守
护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式，因
此需要配置SSH运用无密码公钥认证的形式，这样NameNode 使用SSH无密码登
录并启动DataName进程，同样原理，DataNode上也能使用 SSH无密码登录到
NameNode。
1）安装和启动SSH协议；（所有节点）
2）切换到hadoop用户；
3）每个节点生成秘钥对；（所有节点）
4）查看"/home/hadoop/"下是否有".ssh"文件夹，且".ssh"文件下是否有两个
刚生产的无密码密钥对；（所有节点）
5）把 id_rsa.pub追加到授权的key 里面去；（所有节点）
6）修改文件"authorized_keys" 权限；（所有节点）
7）设置SSH配置；（所有节点）
8）设置完之后记得重启SSH服务，才能使刚才设置有效；（所有节点）
9）切换到hadoop用户；
10）验证是否成功；（所有节点）
11）把 master节点的公钥 id_rsa_pub 复制到每个slave点；
12）在每个slave节点把 master 节点复制的公钥复制到authorized_keys文件；
（所有 slav ve e 节点）
13）删除id_rsa.pub文件；（所有 slav ve e 节点）
14）验证master到每个 slave节点无密码验证；（ master 节点）
15）每一个slave节点的公钥复制到master；（注意 15、16、17步骤完成一个
slave 节点后再操作下一个）
16）在 master节点把从 slave节点复制的公钥复制到authorized_keys文件；
（ master 节点）
17）删除id_rsa.pub文件；（ master 节点）
18）验证每个slave节点到 master 无密码验证；（ slav ve e 节点）
4 4 、Java 环境安装（所有节点都要配置）
将 jdk-8u77-linux-x64.tar.gz包上传到master 节点/root目录下。
1）切换到root用户；
2）新建java目录；
3）解压到/usr/java目录下；
4）配置环境变量；
5）使添加的环境变量生效；
6）验证安装成功。
5 5 、在 Master 节点上安装 hadoop
1）解压缩到/usr目录下；
2）重命名；
3）配置hadoop环境变量；
4）使配置的hadoop的环境变量生效；
5）配置hadoop-env.sh；
6）配置core-site.xml；
7）配置hdfs-site.xml；
8）配置yarn-site.xml；
9）配置mapred-site.xml；
10）配置masters文件；
11）配置slaves文件；
12）新建目录；
13）修改/usr/local/hadoop目录的权限；
14）将 master上的 hadoop安装文件同步到slave1 slave2；
15）在每个slave节点上配置 hadoop 的环境变量；（所有slave节点）
16）使配置的hadoop的环境变量生效；（所有slave 节点）
17）修改/usr/local/hadoop目录的权限；（所有slave节点）
18）切换到hadoop用户。（所有slave 节点）
6 6 、测试
1）切换到hadoop；（master节点）
2）先格式化；（master节点）
3）启动hadoop；（master节点）
4）查看Java进程；
5）使用浏览器浏览Master节点机查看NameNode 节点状态；
6）浏览Datanode数据节点；
7）使用浏览器浏览Master节点查看所有应用；
8）浏览Nodes；
9）关闭hadoop。
任务二、数据采集（ 15 分）
根据下列表头样式，自定义编写或采集可用数据源，并保存到对应“任务二”
服务器中。

任务三、数据清洗与分析（ 25 分）
1 1) ) 创建hive表格；
2 2) ) 将爬取数据导入相应表；
3 3) ) 读取数据集；
4 4) ) 清洗数据中的无效数据；
5 5) ) 统计指定属性列的缺失值个数；
6 6) ) 查看具有缺失值的数据行；
7 7) ) 补充Money中缺失值并新保存表；
) 8) 读入及查看下列数据集。
a a) ) 2013-2015低保人口的收入平均值；
) b) 统计2016年各区的低保人口中失业人数；
c c) ) 2015-2016年，“未登记失业人员”的平均收入；
d d) ) 2014年各区具有“视力或听力残疾”的人数；
e e) ) 对指定属性进行标准化，并写入相应文件。
任务四、数据可视化（2 20 0 分）
将分析后的数据推送到MySQL数据库中，并对内容可视化呈现：
1 1) ) 使用Matplotlib绘制一个区县的统计图；
2 2) ) 展示某两年低保人口的收入平均值；
3 3) ) 统计某年各区的低保人口中失业人数；
4 4) ) 展现某两年“未登记失业人员”的平均收入；
5 5) ) 展现某年各区具有“视力或听力残疾”的人数。
任务五：综合分析（ 15 ）
根据可视化图表回答以下问题
1） 2016 年哪个区域需要的投入的低保经费最多；
2） 2016 年哪个区域人口平均收入最低；
3） 2016 年哪个区域人口平均收入最高；
4）如何提高低保人口收入平均值。

2.实现

链接：https://pan.baidu.com/s/1Olalilme_4hmpeJOakrEDg
提取码：htp1
复制这段内容后打开百度网盘手机App，操作更方便哦

hadoop平台+低保数据采集+分析+可视化

1. 需求：

1.1 背景描述

2.实现

猜你喜欢