hive简介与架构

版权声明:1911907658 https://blog.csdn.net/qq_33598343/article/details/83956865

hive概述

Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。
可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。

数据计算:mapreduce分布式计算­>难度大
hive­>SQL语句 mysql 简化开发 减少学习成本

优缺点

优点:
(1)操作接口采用了sql,简化开发,减少学习成本
(2)避免手写mapreduce程序
(3)hive执行延迟较高,适用场景大多用在对实时性要求不强的情景
(4)优点在于处理大数据
(5)支持自定义函数
缺点:
(1)hive的sql表达能力有限(HSQl)
(2)hive效率低

hive架构

提供了一系列接口:hive shell、jdbc/odbc、webui

在这里插入图片描述

hive默认把元数据存储到derby中,这是hive自带的,但是不支持多个用户去使用,这里要换成Mysql

sql语句首先通过元数据找到表位置,然后经过解析器编译器,通过优化器来告诉执行器是否需要转为mapreduce程序来运行

猜你喜欢

转载自blog.csdn.net/qq_33598343/article/details/83956865