[HCNA Cloud]FusionInsight架构与原理

大数据是指无法再一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

Yarn是Hadoop2.0中的资源管理系统，它是一个通用的资源管理模块，可为各类应用程序进行资源管理和调度。Yarn是轻量级弹性计算平台，除了MapReduce框架，还可以支持其他框架，比如Spark、Storm等。多种框架统一管理，共享集群资源。资源利用率高，运维成本低，数据共享方便。

Apache MapReduce是Google MapReduce的开源实现，是对并行计算的封装，使用户通过一些简单的逻辑即可完成复杂的并行计算。其核心理念是将一个大的运算任务分解到集群每个节点上，充分运用集群资源，缩短运行时间。

MapReduce是一种简化并行计算的编程模型，名字源于该模型中的两项核心操作：Map和Reduce。Map将一个任务分解成为多个任务，Reduce将分解后多任务处理的结果汇总起来，得出最终的分析结果。

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReduce快40倍左右。

Spark是Hadoop的升级版本，Hadoop第一代产品使用HDFS，第二代加入了Cache来保存中间计算结果，并能适时主动推Map/Reduce任务，第三代就是Spark倡导的流Streaming。

Spark兼容Hadoop的API，能够读写Hadoop的HDFS HBASE 顺序文件等。

Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易，弥补了Hadoop批处理所不能满足的实时要求。

Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。