Hadoop生态系统:各计算引擎及工具的产品分析

 大数据分式计算与流式计算的模式:

1.批量计算(有开始和结束时间的固定段静态数据)

2.流式计算(无边界的/动态数据)

3.交互式

4.图计算

大数据分析 Hadoop:

1.基于hdfs(分布式文件存储)+mapredus(数据键值对)的数据分析工具 。历史来源“三辆马车”gfs/bigtable/mp

2.Yarm(资源管理框架)

3.Sqoop(数据库迁移工具)

4.Mahout(数据挖掘算法库)

5.Hbase(分布式存储系统)

6.Zookeeper(分布式协作服务)

7.Hive(数据仓库工具)

8.Fiume(日志收集工具)

9.Spark(通用计算引擎)

10.impala(新型查询系统)

11.kafka(分布式消息队列)

12.ambari(大数据集群管理)

13.oozie(工作流调度)

大数据处理能力对比分析:

Hive是jdbc/odbc的java实现,WebGui的数据仓库管理工具。

Spark 混合框架提供交互式编程体验优化了MR计算模型,但扩展/稳定不行,还是基于hdfs+yarn,不可商用。流水线微批处理,高吞吐但高延迟,秒级。

Impala--或rdbms ,是绕过MR的快速数据查询工具,比mr的查询大一个数量级

Trino(Presto)提供交互式查询,特点:支持多个数据源,提供(异构+联邦)查询。Trino分布式sql查询引擎,用来进行高速、实时的数据查询 Presto的产生是为了解决Hive的MapReduce模型太慢且不能通过BI等工具展现HDFS的问题.性能优化:Presto/Trino支持内存并行处理、跨集群节点管线执行、多线程执行模型、高效的扁平内存数据结构(最小化Java的垃圾回收)、Java字节码生成。超过了Impala和Spark SQL .

Hbase适合十亿--百亿级的数据处理量,hdfs最少5个节点及以上。

Flink 混合框架基于事件处理的消息队列,实时计算,流批一体。轻量容错 高吞吐,低延迟毫秒级。

猜你喜欢

转载自blog.csdn.net/weixin_29403917/article/details/128113823