走近大数据之Hive入门(一、概述)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011712163/article/details/89067051

目录

一、数据仓库

二、什么是Hive

注意


一、数据仓库

数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。

 

OLTP应用:联机事务处理,关注的是事物的处理,典型的OLTP应用是银行转账,一般操作频率会比较高;

OLAP应用:联机分析处理,主要面向的是查询,典型的OLAP应用是商品推荐系统,一般不会做删除和更新,数据一般都是历史数据。

 

数据仓库中的数据模型:星型模型和雪花模型。星型模型是数据仓库最基本的数据模型,雪花模型是在星型模型的基础上发展起来的。

 

二、什么是Hive

Hive 中的数据存储在 Hadoop HDFS 中,Hive 中的数据其实就是 HDFS 中的目录文件
           在 Hive 中创建一张表就会自动在 HDFS 中创建一个文件夹。Hive表==>HDFS目录
          在该表中保存数据也就相当于在这个文件夹下面存储文件。Hive数据==>HDFS文件
          可以在 hive-site.xml 中指定数据仓库的目录:hive.metastore.warehouse.dir

 

 

注意

问题一:怎么理解数据仓库不可以更新?

数据仓库一定要更新的,因为不断的将OLTP产生的数据通过ETL导入数据仓库中。

但是,已经导入数据仓库中的数据,是不会更新的,换句话说,一条数据进入了数据仓库,就不会再做任何改变。

如果想要对已有的数据进行更改,只会产生新的数据,再次倒入数据仓库。

这是因为,数据仓库是用来做决策分析的。过去的所有数据,都是代表了当时的状态,所以不可以有任何改变。就像历史一样,已经成为事实的东西,是不能改变的。 

猜你喜欢

转载自blog.csdn.net/u011712163/article/details/89067051
今日推荐