Hadoop 电影评分数据统计分析实验

Hadoop


Linux -> Hadoop -> HBase -> Spark

Hadoop分布式计算基础是什么?

1、存储

2、计算

电影评分数据统计分析实验

【项目目标】

1)掌握Hive的查询语句的使用

2)掌握R的可视化分析

【实验原理】

一、Hive支持多种不同长度的整型和浮点型数据类型,支持布尔类型,也支持无长度限制的字符串类型。

二、查询语句是所有数据库都包括的,并且很常用,所以需要熟练掌握。

三、R中的可视化非常漂亮,我们需要熟练使用。

【实验环境】

CentOS6.5、JDK1.7、Hadoop2.4.1、Hive0.12.0、R-3.2.2

【实验数据】

hot_movie

字段 定义
m_id (电影id)
score (系统评分)
m_name (电影名称)

user_movie

字段 定义
u_name (用户昵称)
m_id (电影id)
u_score (用户评分)

【实验步骤】

一、项目准备阶段

1.1在任意目录下运行start-all.sh.启动hadoop。如图1所示。

在这里插入图片描述
图1

1.2 输入jps检查是否启动成功。如图2所示。

在这里插入图片描述

图2

1.3 进入hive下bin目录。如图3所示。

在这里插入图片描述

图3

二、数据分析以及数据准备

2.1 统计电影的系统评分,并查看结果。如图4-5所示。

在这里插入图片描述

图4

在这里插入图片描述

图5

2.2 统计一个电影被观看的次数。如图6-7所示。

在这里插入图片描述

图6

在这里插入图片描述

图7

2.3 统计前10名观众看电影的次数。如图8-9所示。

在这里插入图片描述

图8

在这里插入图片描述

图9

三、R可视化

3.1 进入R命令行,并载入相关程序包,(程序包已安装完毕直接使用即可)。如图10-11所示。

在这里插入图片描述

图10
在这里插入图片描述

图11

3.2 画出系统电影评分的词云图。如图12-14所示。

在这里插入图片描述

图12

第一次执行可能会像是这样,不要担心,别关闭浏览器,将程序的最后一句再执行一遍,就可以正常显示。

在这里插入图片描述

图13

在这里插入图片描述

图14

3.3 画出每个电影观看次数的词云图,同样将程序的最后一句执行两遍。如图15-16所示。

在这里插入图片描述

图15

在这里插入图片描述

图16

3.4 画出前10名观众看电影的次数的条形图。如图17-18所示。

在这里插入图片描述

图17

在这里插入图片描述

图18

猜你喜欢

转载自blog.csdn.net/weixin_45756724/article/details/114283714