Apache Hive

1． Hive 简介
1.1． 什么是Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

本质是将SQL转换为MapReduce程序。

主要用途：用来做离线数据分析，比直接用MapReduce开发效率更高。

1.2． 为什么使用Hive

直接使用Hadoop MapReduce处理数据所面临的问题：

人员学习成本太高

MapReduce实现复杂查询逻辑开发难度太大

使用Hive ：

操作接口采用类SQL语法，提供快速开发的能力

避免了去写MapReduce，减少开发人员的学习成本

功能扩展很方便

2． Hive 架构2.1． Hive架构图2.2． Hive组件

用户接口：包括 CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。

元数据存储：通常是存储在关系数据库如 mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。

2.3． Hive与Hadoop的关系

Hive利用HDFS存储数据，利用MapReduce查询分析数据。

3． Hive与传统数据库对比

hive用于海量数据的离线数据分析。

hive具有sql数据库的外表，但应用场景完全不同，hive只适合用来做批量数据统计分析。

更直观的对比请看下面这幅图：

4． Hive数据模型

Hive中所有的数据都存储在HDFS中，没有专门的数据存储格式

在创建表时指定数据中的分隔符，Hive 就可以映射成功，解析数据。

Hive中包含以下数据模型：

db：在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹

table：在hdfs中表现所属db目录下一个文件夹

external table：数据存放位置可以在HDFS任意指定路径

partition：在hdfs中表现为table目录下的子目录

bucket：在hdfs中表现为同一个表目录下根据hash散列之后的多个文件

5． Hive 安装部署

Hive安装前需要安装好JDK和Hadoop。配置好环境变量。

根据元数据存储的介质不同，分为下面两个版本，其中derby属于内嵌模式。实际生产环境中则使用mysql来进行元数据的存储。

内置derby版：

解压hive安装包

bin/hive 启动即可使用

缺点：不同路径启动hive，每一个hive拥有一套自己的元数据，无法共享

mysql版：

解压、修改配置文件

vi conf/hive-site.xml

配置Mysql元数据库信息

详细安装步骤查看《Hive安装手册》