好久不更新博客了，近几个月经过反复修改整理已经积攒了一堆笔记，恰好趁此更新博客的机会再将所学知识进行一个系统的回顾和梳理。

一、Hive简介

1.1、Hive是建立在Hadoop上的数据仓库基础构架。

他提供了一系列的工具，可以用来进行数据提取和转化加载（ETL），是部署在hadoop集群上的，是hadoop集群上的一个框架，这是一种大规模的数据机制，Hive定义了简单的类SQL查询语句，称为HQL，他允许熟悉Sql的用户查询数据，同时，这个语言也允许熟悉MapperReducer开发者开发自定义的Mapper和Reduce来处理内置的Mapper和Reducer无法完成的复杂的分析工作。支持SwiftS

1.2、数据仓库与数据库的区别：

1、数据库可以实时的进行增删该查，

2、数据仓库不仅仅用于存放大量数据，同时支持对数据进行分析计算，但是不支持实时的更新删除，如发现有一条数据错误，不能直接修改，只能先将数据下载下来，在本地进行修改，之后再上传上去。同时不能删除某条数据，除非整个文件中只有一条数据，将整个文件删除。即数据仓库用于保存和分析数据，其中的数据是一次写入多次读取。

Hive是一个Sql解析引擎，可以解析SQL，将SQl解析成MapperReduce任务在Hadoop上执行，

Hive的表其实就是HDFS的文件夹，表里的数据对应于文件夹中的文件，按照表名把文件夹分开，如果是分区表，则分区值是子文件夹，可以直接在MapperReducer任务中使用这些数据。

1.3、用户接口：

CLI；命令行接口，即shell， 用的最多是使用脚本。因为JDBC存在问题，对并发和连接池支持不好。

JDBC/ODBC：是Hive的Java，与使用传统数据库JDBC的方式类似，支持多语言，其中有一个Thrift Server支持多语言，如使用c++写的会通过Thrift Server将其转换为SQL去操作Hive。

WebUI：浏览器，只能查看。

1.4、元数据库（metaStore）：

Hive将原数据存储在元 数据库中（metaStore）,元数据库保存数据的一些表、数据分区的一些简单的描述信息（如有哪些表，表中有哪些字段，有哪些分区等等），而海量的计算数据保存在HDFS中。

Hive的Driver包含解释器、编译器、优化器完成HQL查询语句从词法分析，语法分析，编译，优化以及查询计划（plan）的生成，生成的查询计划存储在Hdfs中，并在随后由MapperReducer进行调用。

Hive的数据存储在HDFS中默认将表存放到HDFS的：hdfs://ns1/user/hive/warehouse/目录下(ns1指的是NameService)，大部分的查询会产生对应的MapperReducer，使用MapperReducer完成，但是包含* 的查询，例如SELECT * FROME table（即进行全表扫描）不会生成MapperReducer，直接将HDFS中的数据读取出来即可。

1.5、元数据库问题：

当我创建表时，会在MateStore中保存表的元数据信息，同时在HDFS中创建表的对应目录用来保存表的数据。

详细信息：首先将表名，表中有几个字段，每个字段的类型，表中数据在HDFS的存放位置等元数据信息保存在元数据库（metaStore）中，而我们要计算的数据（即表中的数据）保存在HDFS中，默认将表保存在HDFS的文件夹为:/user/hive/ warehouse /表名。

Hive中有默认的metaStore，且当Hive运行时即执行$HIVE_HOME /bin/hive命令时，会在 当前目录下会生成一个 metastore_db目录，用于保存元数据。且若连续两次在不同目录下执行$HIVE_HOME /bin/hive 命令，此时在哪个目录下执行 /bin/hive 命令就去读哪个目录下的元数据库，若当前目录下没有则创建一个新的 metastore_db目录。

默认的MateStore是一个 derby数据库， 但是他只支持一个连接，即对于一个MateStore（元数据库）同时只能有一个客户端进入Hive ， 即在同一目录下多次运行$HIVE_HOME/bin/hive命令时会报错。此外derby数据库想要支持多连接，需要切换不同的目录执行$ HIVE_HOME/bin/hive 命令，这时会使用不同的 metastore_db目录，但二者不能共用表。

基于derby数据库的问题，实际开发中使用MySQL数据库。Mysql数据库的安装和配置，可查阅资料。

安装数据库时，曾指定数据库安装在那个节点上，且MySQL数据库中是否已经有hive库，如果没有则在MySQL中创建名为hive的库，默认hive库中会有20几张表用来保存hive的元数据信息，其中在TBLS表中保存有创建表的描述信息：表的ID，表名，表的字段，以及字段类型。在SDS表中存放有表对应存放在HDFS的目录位置，

每张表在HDFS中以目录的形式存放，一个表对应一个目录（默认存放在 hdfs://ns1/user/hive/warehouse /目录下 ），且无论是内部表还是外部表，只要将数据文件存放到该表对应得HDFS目录中，数据文件就会被做为表的内容。也就是说使用SELECT * FROM 表明，语句查询表中所有内容时，会依次显示出该表对应的HDFS目录下的所有文件中的内容。

简述mateStore中表是怎样确定与HDFS目录关系的

0】、当再Hive中创建一张表后，在 TBLS表，中会记录表的ID，表的名称，表所属用户，表的类型等等.... SD_ID是用于关联 SDS表 的。

1】、当查询某一张表时如student表，此时会在 TBLS表 中找到student表并确定student表对应的ID为2,

2】、根据student表的ID去中 COLUMNS_V2表中找对应得关联字段CD_ID为2的记录，

如图中显示CD_ID为2，的记录就是对student表列字段信息的描述。从表中可以知道student表有两个字段：id 类型为 bigint，name类型为string

3】、之后查 SDS表查找到student对应得信息，根据该条信息中LOCATION字段即可确定student表在HDFS文件系统中的存储位置。

1.6、在Hive中支持使用HDFS的命令，但需将命令开头的hadoop改为dfs

查看HDFS的根目录：

hadoop默认命令： hadoop fs -ls /

在Hive中： dfs -ls /;

在HDFS中创建名为data的目录

hadoop默认命令： hadoop fs -mkdir /data

Hive中的命令： dfs -mkdir /data;

上传文件：

Hive中： dfs -put /root/student.txt /data/a.txt;

二、使用Hive

2.1、建表(默认是内部表) ，

即先建一张表，将linux中的数据load到HDFS上，且有表相关联，此时在TBLS表中该表对应得那条数据（每条数据对应一张hive表的描述信息）中TBL_TYPE字段的值均为：MANAGED_TABLE

在Hive安装的节点上，进入Hive模式，执行

create table student (id bigint, name string) row format delimited fields terminated by '\t';

此时在HDFS的 hdfs://ns1 /user/hive/ warehouse /目录下会生成一个名为student的目录（文件夹），该目录对应的就 是 生成的表。

将linux本地/root/student.txt文件数据导入到student表中：

load data local inpath '/root/student.txt' into table student;

此时在在DHFS的 /user/hive/ warehouse / 下 会多出一个文件：hdfs://ns1/user/hive/warehouse/student/student.txt

查询student中所有数据：

select * from student;

此时并不会执行MapperReduce，而直接显示student.txt中的数据

查询前两条：

select * from student limit 2;

此时也不会执行MapperReducer，只需将所有数据全部读出来，显示前两条

求和

select sum(id) from student;

此时会转换成MapperReducer，且结果中没有加Null，因为id有类型的

值得注意的是： 此时如果再将一个文件（文件中数据格式满足表 student 定义格式）放到 /user/hive/warehouse/student/ 目录下那么该文件就会被做为 student 表的内容，且使用 select * from student; 语句查询 student表 中数据时会将 /user/hive/warehouse/student/ 目录下的 所有文件中的内容 依次显示出来。

2.2、外部表：

先有数据后有表，例如：公司有一些历史数据，且已经上传到HDFS上了，此时创建一张表，将表指向该数据。注意上面是，数据(student.txt )存放在linux系统中，先创建表，然后将linux中的数据(student.txt )load 到HDFS系统中的。而若HDFS中已经存在数据了，可以直接创建外部表。此时是不允许使用load将数据加入外部表中的。

准备工作:

在Hive中使用HDFS命令创建目录： /data

dfs -mkdir /data;

将linux中的文件存入到/data中

dfs -put /root/student.txt /data/a.txt;

外部表创建：

创建一张表 ext_student指向HDFS中的 /data/目录即把他认为是一个表。

create external table ext_student (id int,name string) row format delimited fields terminated by '\t' location '/data';

查询数据：

select * from ext_student;

值得注意的是 ：此时如果再将一个文件（文件中数据格式满足表的定义id int,name string 且分割符为‘\t’）放到/data/目录下那么该文件就会被当做表的内容，使用 select * from ext_student; 语句查询 ext_student表中数据时会将 /data/目录下的 所有文件中的内容依次显示出来

但是有种特殊情况除外：

2.3、建分区表：

如将数据按照年份进行分区，之后再查询数据时，直接查找对应年份的分区数据即可，而不用按照年份字段进行全表扫描，减少查询时间。 而分区其实就是表对应目录下的子文件夹，

0】、创建表：

create table td_part(id bigint, account string, income double) partitioned by (logdate string) row format delimited fields terminated by '\t' location '/part';

创建一个分区表，且为外部表，此时按照logdate string字段分区（在向表中加载HDFS中的文件数据时指定该文件属于哪个分区），并指向HDFS的/part目录（如果没有则会自动创建），

1】、在linux的/root目录下编写2个文件a.txt、b.txt数据格式按td_part定义的格式。数据如下：

a.txt:

1 blw 1200

2 ssh 1300

b.txt:

3 bxc 3000

4 ml 4000

2】、将a.txt于b.txt两个文件put上传到td_part表对应得HDFS目录中：/part. 但此时查询td_part表中数据(select * from td_part;)时并不会查出任何数据，因为没有定义分区。

hadoop fs -put b.txt /part

hadoop fs -put a.txt /part

而分区其实就是表对应目录下的子文件夹，因此直接放在/part目录下的文件是不会被td_part 查出来的，这就是上面所指的特殊情况。要想被查出来，就必须将数据文件放到对应得分区子文件夹中

3】、定义分区：将b.txt加载到td_part表中，并制定分区为today

load data local inpath '/root/b.txt' into table td_part partition ( logdate ='today');

此时在HDFS 的/part目录下会生成一个子目录/part/logdate=today/ 而数据文件b.txt只有存放到该子目录下才能被td_part查出来，查询td_part表中数据(select * from td_part;)会显示数据。

4】、另外。如果手动在HDFS中的/part中创建一个子目录：/part/logdate=tomorrow/之后将数据文件a.txt上传到该目录下，是否可以查出a.txt的数据？

答案是 不可以，因为手动方式添加子目录时，元数据库MateStore中没有添加相关记录，因此当查询 td_part表时并不会去 /part/logdate=tomorrow/目录下扫描数据。需要使用Hive语句通知Hive：

alert table td_part add partition (logdate='tomorrow') location "/part/logdate=tomorrow";

此时就可以查询出 /part/logdate=tomorrow/ 目录下的数据了。

5】、按分区查询数据：

select * from td_part where logdate='today';

此时会直接显示对应分区目录中的数据。而不需要进行全表扫描。

附：一般实际应用中都是查询日志，所以可以按时间建立分区，且可以建多层分区，首先按月建分区，月下面还有日分区，

注意分区字段不能是表里的某个字段：

create table sms (id bigint,content string,area string) partitioned by (area string) row format delimited fields terminated by '\t';

会报错，说字段冗余，解决方法，可以建两个字段将数据保持一致

分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示。

Hive0.13.0简介

好久不更新博客了，近几个月经过反复修改整理已经积攒了一堆笔记，恰好趁此更新博客的机会再将所学知识进行一个系统的回顾和梳理。

一、Hive简介

1.1、Hive是建立在Hadoop上的数据仓库基础构架。

1.2、数据仓库与数据库的区别：

1.3、用户接口：

1.4、元数据库（metaStore）：

1.5、元数据库问题：

二、使用Hive

2.1、建表(默认是内部表) ，

2.2、外部表：

2.3、建分区表：

猜你喜欢

Hive0.13.0简介

好久不更新博客了，近几个月经过反复修改整理已经积攒了一堆笔记，恰好趁此更新博客的机会再将所学知识进行一个系统的回顾和梳理。

一、Hive简介

1.1、Hive是建立在Hadoop上的数据仓库基础构架。

1.2、数据仓库与数据库的区别：

1.3、用户接口：

1.4、元数据库 （metaStore） ：

1.5、元数据库问题：

二、使用Hive

2.1、建表(默认是内部表) ，

2.2、外部表：

2.3、建分区表：

猜你喜欢

1.4、元数据库（metaStore）：