Hive入门 ------ Hive是什么,产生背景

版权声明:个人原创,转载请标注! https://blog.csdn.net/Z_Date/article/details/83929027

一、hive产生背景

Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。

  • 由Facebook开源,最初用于解决海量结构化的日志数据统计问题

  • MapReduce编程的不便性

  • HDFS上的文件缺少Schema(字段名,字段类型等)

二、Hive是什么

  • 构建在Hadoop之上的数据仓库

  • Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同)

  • 通常用于进行离线数据处理(采用MapReduce)

  • 底层支持多种不同的执行引擎(Hive on MapReduce、Hive on Tez、Hive on Spark)

  • 支持多种不同的压缩格式、存储格式以及自定义函数(压缩:GZIP、LZO、Snappy、BZIP2.. ; 存储:TextFile、SequenceFile、RCFile、ORC、Parquet ; UDF:自定义函数)

到底什么是Hive,我们先看看Hive官网Wiki是如何介绍Hive的(https://cwiki.apache.org/confluence/display/Hive/Home):

Apache HiveApache Hive™ 数据仓库软件为分布式存储的大数据集上的读、写、管理提供很大方便,同时还可以用SQL语法在大数据集上查询。

1、是一种易于对数据实现提取、转换、加载的工具(ETL)的工具。可以理解为数据清洗分析展现。2、它有一种将大量格式化数据强加上结构的机制。3、它可以分析处理直接存储在hdfs中的数据或者是别的数据存储系统中的数据,如hbase。4、查询的执行经由mapreduce完成。5、hive可以使用存储过程6、通过Apache YARN和Apache Slider实现亚秒级的查询检索。

​ (Slider简介https://blog.csdn.net/jiewuyou/article/details/42614073

猜你喜欢

转载自blog.csdn.net/Z_Date/article/details/83929027
今日推荐