HIVE安装和基本操作

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/Su_Mo/article/details/78394880

一、安装HIVE

1、在本地文件系统中找到hadoop所在目录,打开命令终端,如图:


2、通过命令终端进入到hadoop所在文件夹,并通过命令ls 查看bin文件下所有命令,如图:

3、运行启动命令start-all.sh启动hadoop,并用jps命令查看所有进程是否成功启动,如图:


4、解压HIVE安装文件到/software目录,如图:


5、修改环境变量,如图:

扫描二维码关注公众号,回复: 4001684 查看本文章


6、修改配置文件,将 hive-env.sh 中 HADOOP_HOME 修改为虚拟机中 Hadoop 文件夹所在 的绝对路径:


7、启动hive:


二、HIVE 基本操作

1、  输入show databases;命令查看当前数据库,如图:

2、输入show tables;查看所有表:


 3、自己在usr路径下创建data文件夹,创建user.data文件,在其中写入数据,如图:


使用create tableuser(user_id int,fname string,lname string) row format delimited fieldsterminated by '\t';创建表;

查询表select *from user;发现此时表中没有数据;

导入数据load datalocal inpath '/usr/data/user.data' overwrite into table user;

再次查询表


三、. 基于 HSQL 实现 WordCount

1、创建word_count表,导入file0和file1两个文件,并查看导入结果:

2、创建临时表word_countTmp1,将exlpode和split的结果写入临时表word_countTmp1。

此时临时表中数据如下图所示:




3、新建results表,将临时表中的数据按照词语分组之后写入results表


4、按照times(次数)降序查看results表中数据:


5、用limit关键字限制返回数据行数以查询排名前三的数据:

四、用户搜索日志分析

1、在搜狗实验室下载当日用户查询日志精简版数据,将其放进虚拟机的/usr/data文件夹中。

2、解压用户查询日志数据,如图:

3、根据用户查询日志的格式创建 user_log 表,并将相关数据导入到表中。


4、创建临时表user_logTmp,将user_log中的数据存进去,其中URL用split函数进行切分,只保留第一个“/”之前的信息。

5、创建user_logresult表,只有URL和num(表示次数)两列数据,将user_logTmp表中的URL数据写入新表的URL列,按照URL分组统计的数据写入num列,如图:


6、按照num从大到小显示user_logresult中排名前十的数据,如图:


猜你喜欢

转载自blog.csdn.net/Su_Mo/article/details/78394880