基于Hadoop集群的Hive安装配置（Derby数据库）

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据，提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行（具体的Hive架构大家自行搜索）。接下来主要讲下Hadoop集群下Hive的安装配置，并搭载Derby数据库（一款小巧的数据库，用于测试，不推荐开发使用，具体大家自行百度），进行一些基本的数据库操作，好了，让我们开始吧。

一、环境：同样的启用三个节点，分别是虚拟机slave01，slave02，slave03，基于之前已经搭建好的环境，包括JDK、Zookeeper、Hadoop

二、Hive、Derby配置（自行解压）

这里推荐下载版本较低的Hive，本人经验教训告诉大家：高版本易出现问题，比如说我的Hadoop 2.7.6，下载Hive 2.2.0 安装配置后就出现了很多问题，体验极差，像报错为：

就属于版本过高导致的，所以，大家尽量下载低版本的。

（1）设置Hive、Derby环境变量

添加HIVE_HOME、DERBY_HOME，如下：

使文件生效，运行命令：

扫描二维码关注公众号，回复： 5131845 查看本文章

（2）修改Hive文件夹conf目录下配置文件 hive-env.sh

复制一份 hive-env.sh.template 重命名为 hive-env.sh：

修改 hive-env.sh 内容：

（3）配置Hive的Metastore

配置Metastore意味着，指定要Hive的数据库存储，同样，Hive/conf目录下，复制一份 hive-default.xml.template重命名为 hive-site.xml：

修改 hive-site.xml 内容，由于里面原内容较多，可通过命令gedit以编辑器模式打开：

删除所有的配置，替换为：

其中，<value>jdbc:derby:;databaseName=metastore_db;create=true</value> 表示使用嵌入式的derby，create为true表示自动创建数据库，数据库名为metastore_db，另一种客服模式大家感兴趣的可以自己看下；<value>org.apache.derby.jdbc.EmbeddedDriver</value> 表示使用嵌入式的derby；warehouse文件夹手动创建。

三、验证Hive

运行Hive之前，需要创建/tmp文件夹在HDFS独立的Hive文件夹，并给这些新创建的文件夹写权限：