大数据系列(四)数据仓库hive的使用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zl592886931/article/details/89789518

Hive的介绍

Hive的产生背景

根据博主前面对于MapReduce的讲解,可以回想一下,我们做一个再简单不过的wordcount(我们都可以用java的计算函数几行代码搞定),需要以下步骤:

建立mapper => 建立reduce => 建立driver => 运行

试想一下,如果不懂java,是不是和大数据say goodbye了。再想一下,改个需求,是不是代码要做到哭?
这种统计,我放在sql数据库里一个group by全部搞定。传统关系型数据库发展了一个宇宙纪元,谁不会sql?谁会大数据?

所以在这样比较冲突的环境下,Hive诞生啦。它可以让你使用sql的方式来运行MR。这有多酸爽?想想就舒服了

Hive概述

首先来看下Hive的爸爸是谁:

Hive是由Facebook开源的,用于解决海量结构化日志统计问题的框架。

Hive是构建在hadoop之上的数据仓库,Hive的数据存储在hdfs(关系类似于关系型数据库中数据和视图,Hive是视图),并且Hive提供了SQL的查询语言:HQL,因为底层引擎是MR,So,对于其他大数据计算框架比如spark等的支持,简直狼狈为奸~

那么问题来了,都有那么多的框架了,我凭什么用Hive? 说的对,那我们用spark吧?云计算上面全部都有了,我为什么要自己搭建?干脆买云吧。 那开源那么多产品,我为什么还要做程序,不然做一个PPT方案架构师吧?所以,小伙伴们,路如何选择只有靠自己的坚持,既然我们选择了程序员,那么对于技术应该有所追求抑或是偏执。哪怕将来做了管理,做了业务,技术始终是我们的根本。我坚信,将来核心竞争力一定是研发!!!

Hive架构

Hive的体系架构

Hive的部署架构

Hive与RDBMS数据库的区别

Hive的部署搭建

Hive DDL

Hive DML

猜你喜欢

转载自blog.csdn.net/zl592886931/article/details/89789518
今日推荐