[HCNA Cloud]FusionInsight架构与原理

大数据是指无法再一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。


blob.png

blob.png

blob.png

blob.png

blob.png

blob.png

blob.png

Yarn是Hadoop2.0中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度。Yarn是轻量级弹性计算平台,除了MapReduce框架,还可以支持其他框架,比如Spark、Storm等。多种框架统一管理,共享集群资源。资源利用率高,运维成本低,数据共享方便。


Apache MapReduce是Google MapReduce的开源实现,是对并行计算的封装,使用户通过一些简单的逻辑即可完成复杂的并行计算。其核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集群资源,缩短运行时间。

MapReduce是一种简化并行计算的编程模型,名字源于该模型中的两项核心操作:Map和Reduce。Map将一个任务分解成为多个任务,Reduce将分解后多任务处理的结果汇总起来,得出最终的分析结果。


Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReduce快40倍左右。

Spark是Hadoop的升级版本,Hadoop第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。

Spark兼容Hadoop的API,能够读写Hadoop的HDFS HBASE 顺序文件等。


Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。

Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。


Hbase与HDFS使用相同的Zookeeper,都是使用ZooKeeper的一致性服务特性,进行主备切换。


猜你喜欢

转载自blog.51cto.com/juispan/2107792