大数据生态圈的理解

HDFS是整个大数据架构的底层,它提供了一个文件系统

Spark(Spark core(RDD)) 和 MapReduce 是一个层级,是一种操作计算框架,MapReduce相当于一个别人写好的 java程序,它并不需要在服务器上启动相应的服务,甚至可以在本地run

Hive => MapReduce   Hive 操作MapReduce(底层是 MapReduce)

Spark SQL=> Spark core(RDD)    Spark SQL 操作RDD(底层是 RDD)

Hive 和Scala、Java一个层级,相当于用Scala编写操作 MapReduce、Spark(Spark core(RDD)),它是一种操作计算框架的API,它把HQL翻译成MapReduce (如下图所示,它是执行一个 select count(1) from helloworld )

用以下三个HQL创建一个表,数据来自 helloworld.txt 

create database test_db;
create table helloworld(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 
load data local inpath '/root/data/helloworld.txt' overwrite into table helloworld;

可以看到实质就是把 helloworld.txt存入 /user/hive/warehouse/test_db.db/helloworld 里面,而且并不会改变原有的文件,只是会存储文件相应的元数据(metadata)

Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析

猜你喜欢

转载自blog.csdn.net/q503385724/article/details/88135145