一、简介
hive由Facebook开源用于解决海量结构化日志的数据统计。hive是基于Hadoop的一个数据仓库工具,是基于Hadoop之上的,文件是存储在HDFS上的,底层运行的是MR程序。hive可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。
二、HIVE特点
- 构建在Hadoop之上的数据仓库
- 使用HQL作为查询接口
- 使用HDFS存储
- 使用MapReduce计算
- 本质:将HQL转化成MapReduce程序
- 灵活性和扩展性比较好:支持UDF、自定义存储格式等
- 适合离线数据处理
- hive在Hadoop生态系统中的位置: