HIVE安装和基本操作

一、安装HIVE

1、在本地文件系统中找到hadoop所在目录，打开命令终端，如图：

2、通过命令终端进入到hadoop所在文件夹，并通过命令ls 查看bin文件下所有命令，如图：

3、运行启动命令start-all.sh启动hadoop，并用jps命令查看所有进程是否成功启动，如图：

4、解压HIVE安装文件到/software目录，如图：

5、修改环境变量，如图：

扫描二维码关注公众号，回复： 4001684 查看本文章

6、修改配置文件，将 hive-env.sh 中 HADOOP_HOME 修改为虚拟机中 Hadoop 文件夹所在的绝对路径：

7、启动hive：

二、HIVE 基本操作

1、输入show databases;命令查看当前数据库，如图：

2、输入show tables;查看所有表：

3、自己在usr路径下创建data文件夹，创建user.data文件，在其中写入数据，如图：

使用create tableuser(user_id int,fname string,lname string) row format delimited fieldsterminated by '\t';创建表；

查询表select *from user;发现此时表中没有数据；

导入数据load datalocal inpath '/usr/data/user.data' overwrite into table user;

再次查询表

三、. 基于 HSQL 实现 WordCount

1、创建word_count表，导入file0和file1两个文件，并查看导入结果：

2、创建临时表word_countTmp1，将exlpode和split的结果写入临时表word_countTmp1。

此时临时表中数据如下图所示：

3、新建results表，将临时表中的数据按照词语分组之后写入results表

4、按照times（次数）降序查看results表中数据：

5、用limit关键字限制返回数据行数以查询排名前三的数据：

四、用户搜索日志分析

1、在搜狗实验室下载当日用户查询日志精简版数据，将其放进虚拟机的/usr/data文件夹中。

2、解压用户查询日志数据，如图：

3、根据用户查询日志的格式创建 user_log 表，并将相关数据导入到表中。

4、创建临时表user_logTmp，将user_log中的数据存进去，其中URL用split函数进行切分，只保留第一个“/”之前的信息。

5、创建user_logresult表，只有URL和num（表示次数）两列数据，将user_logTmp表中的URL数据写入新表的URL列，按照URL分组统计的数据写入num列，如图：

6、按照num从大到小显示user_logresult中排名前十的数据，如图：