深入学习《Programing Hive》：初识Hive - 代码天地

深入学习《Programing Hive》：初识Hive

企业开发 2018-05-13 20:03:00 阅读次数: 0

        Hive是一个基于Hadoop分布式系统上的数据仓库，最早是由Facebook公司开发的，Hive极大的推进了Hadoop ecosystem在数据仓库方面上的发展。
        Facebook的分析人员中很多工程师比较擅长而SQL而不善于开发MapReduce程序，为此开发出Hive，并对比较熟悉SQL的工程师提供了一套新的SQL-like方言——Hive QL。
        Hive SQL方言特别和MySQL方言很像，并提供了Hive QL的编程接口。Hive QL语句最终被Hive解析器引擎解析为MarReduce程序，作为job提交给Job Tracker运行。这对MapReduce框架是一个很有力的支持。
        Hive是一个数据仓库，它提供了数据仓库的部分功能：数据ETL(抽取、转换、加载)工具，数据存储管理，大数据集的查询和分析能力。
        由于Hive是Hadoop上的数据仓库，因此Hive也具有高延迟、批处理的的特性，即使处理很小的数据也会有比较高的延迟。故此，Hive的性能就和居于传统数据库的数据仓库的性能不能比较了。
        Hive不提供数据排序和查询的cache功能，不提供索引功能，不提供在线事物，也不提供实时的查询功能，更不提供实时的记录更性的功能，但是，Hive能很好地处理在不变的超大数据集上的批量的分析处理功能。Hive是基于hadoop平台的，故有很好的扩展性(可以自适应机器和数据量的动态变化)，高延展性(自定义函数)，良好的容错性，低约束的数据输入格式。
        下面我们来看一下Hive的架构和执行流程以及编译流程：

        用户提交的Hive QL语句最终被编译为MapReduce程序作为Job提交给Hadoop执行。

猜你喜欢

转载自flyingdutchman.iteye.com/blog/1860733

深入学习《Programing Hive》：初识Hive

深入学习《Programing Hive》：Tuning

深入学习《Programing Hive》：RCFile

深入学习《Programing Hive》：HiveQL索引

深入学习《Programing Hive》：Hive的数据模型(表)

深入学习《Programing Hive》：Hive的DDL数据定义操作

深入学习《Programing Hive》：数据压缩

深入学习《Programing Hive》：HiveQL查询(2)

深入学习《Programing Hive》：HiveQL查询(3)

深入学习《Programing Hive》：HiveQL查询(1)

深入学习《Programing Hive》：模式设计(Schema Design)

深入学习《Programing Hive》：Hive自定义函数之UDF

深入学习《Programing Hive》：数据操纵DML(Data Manipulation Language)

Hive学习（1）-Hive初识

Hive 学习（一）初识

（转）Hive学习之路（一）Hive初识

Hive学习之路（一）Hive初识

Hive入门学习 Hive学习之路（一）Hive初识

[转帖]Hive学习之路（一）Hive初识 Hive学习之路（一）Hive初识

深入学习Hive应用场景及架构原理

hive学习-------初始hive

Hive一（hive初识）

初识Hive

Hive初识

Programing Hive读书笔记

深入学习JavaScript之初识this

【hive学习】

HIVE学习

Hive 学习

hive学习(三) hive的分区

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)