impala和hive的比较

Impala:

Cloudera公司推出,提供对于hdfs,hbase数据的高性能,低延迟的交互式sql 查询功能

基于hive,使用内存计算,兼顾数据仓库,具有实时,批处理,多并发等优点

是CDH首选的PB级大数据实时查询,分析引擎。

内存计算比I/O计算要快,内存计算不依赖于磁盘,受制于内存大小,对于磁盘的要求更高。

Hive是基于MapReduce,内存可以很小。

Map阶段是一条一条的处理

Reduce是一组一组处理

 

 

 

硬件是要花钱的,软件是不要掏钱的,不用了留着就行,充分利用了硬件的资源。

Impala,官方推荐服务器内存是128G

云主机要求64G以上

64G,那32G是要基于磁盘交换了。

 

Hadoop3.0比2.0快。

 

补充:

Impala和hive的区别:

1.Impala创建的表,hive可以接收,而hive创建的表没有义务通知impala,因此hive创建的表impala接收不到。

2.impala比hive速度快

 

因为hive要跑MapReduce

MapReduce启动客户端,和namenode通信,和resourcemanager通信,等待map任务

有很多磁盘I/O的操作。

小数量用impala操作就可以,大量数据就要用到hive了。

每天看计算机原理,看sql,看数据结构

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/81067156