1. 简介

实时的流式处理框架 storm 进程长期运行在内存，在内存中作运算

基本名词：

1. topolgy : DAG有向无环图的实现，包含了应用程序的逻辑,是对storm实时计算的封装，计算拓扑，即，由一系列通过数据流相互关联的Spout、Bolt所组成的拓扑结构，启动后会不停的计算，除非手动终止

2. spout :消息流的源头，Topology的消息生产者。

3. bolt:数据流处理组件，相当于每个数据处理节点，每个任务分发到若干个bolt 中进行计算

4. tuple:Stream 最小的数据组成单元。

5. Stream ：数据流 spout > bolt > bolt >.. 形成的数据传输

6. Stream grouping : 数据传输分发策略，（

shuffle grouping--随机分组

Fields grouping--按照字段分组

all grouping--广播发送

global grouping--全局分组

none grouping--部分组

direct grouping--指向型分组

local or shuffle grouping--本地或者随机

custom grouping 自定义）

《 ******************大家可以想象为流水线工作，每个bolt 做单一的任务职责，******************************* 》

7.Nimbus: Storm集群主节点，负责资源分配和任务调度。我们提交任务和截止任务都是在Nimbus上操作的。一个Storm集群只有一个Nimbus节点。主要功能和yarn 中的resourceManager 一样

8. Supervisor：接受nimbus 分配的任务，管理自己的worker进程，当前supervisor上worker数量由配置文件设定，默认为4个

9. Worker ：运行具体处理运算组件的进程（每个Worker对应执行一个Topology的子集），worker 任务有两种，即spout,bolt 。一般默认负责执行一个task 任务，也可以有多个；

10. Reliability ：可靠性，Storm保证每个Tuple都会被处理。

11. zookeeper: 略

Hadoop

Storm

主节点

ResourceManager

Nimbus

从节点

NodeManager

Supervisor

应用程序

Job

Topology

工作进程

Child

Worker

计算模型

Map/Reduce

Spout/Bolt