Hive学习小技能总结

1、查看到hive执行的历史命令：

进入到用户的主目录，使用命令

cat /home/hadoop/.hivehistory

2、执行查询时若想显示表头信息时，可以执行命令

Hive> set hive.cli.print.header=true;

3、hive的执行日志的存储目录在${java.io.tmpdir}/${user.name}/hive.log中，假如使用hadoop用户操作的hive，那么日志文件的存储路径为：/tmp/hadoop/hive.log

4、注意：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

外部表和内部表的选择：

1、如果数据已经存储在HDFS上了，然后需要使用Hive去进行分析，并且该分数据还有可能要使用其他的计算引擎做计算之用，请使用外部表

2、如果一份数据仅仅只是使用Hive做统计分析，那么可以使用内部表

不管使用内部表和外部表，表的数据存储路径都是可以通过location指定的！

推荐方式：

1、创建内部表的时候，最好别指定location，就存储在默认的仓库路径

2、如果要指定外部路径，那么请创建该表为外部表

5、分桶：

对于每一个表(table)或者分区，Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值hash，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

把表(或者分区)组织成桶(Bucket)有两个理由：

1、获得更高的查询处理效率。桶为表加上了额外的结构，Hive在处理有些查询时能利用这个结构。具体而言，连接两个在(包含连接列的)相同列上划分了桶的表，可以使用Map端连接(Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大减少JOIN的数据量。

2、使取样(samping)更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

Hive学习小技能总结

猜你喜欢