目的:保证消息有且只被执行一次
一、分类
1.强顺序流(强有序)
引入事务(transaction)的概念,每个transaction(即每个tuple)关联一个transaction id。
Transaction id从1开始,每个tuple会按照顺序+1。
在处理tuple时,将处理成功的tuple结果以及transaction id同时写入数据库中进行存储。
缺点:一次只能处理一个tuple,无法实现分布式计算
2.强顺序的Batch流
- 事务(transaction)以batch为单位,即把一批tuple称为一个batch,每次处理一个batch。
- 每个batch(一批tuple)关联一个transaction id
- 每个batch内部可以并行计算
缺点:一个事务未处理完,第二个事务不能进行处理
3.Storm's design
将Topology拆分为两个阶段:
- Processing phase:允许并行处理多个batch
- Commit phase:保证batch的强有序,一次只能处理一个batch
细节:
- Manages state - 状态管理:Storm通过Zookeeper存储所有transaction相关信息(包含了:当前transaction id 以及batch的元数据信息)
- Coordinates the transactions - 协调事务:Storm会管理决定transaction应该处理什么阶段(processing、committing)
- Fault detection - 故障检测:Storm内部通过Acker机制保障消息被正常处理(用户不需要手动去维护)
- First class batch processing API:Storm提供batch bolt接口
二、代码
https://download.csdn.net/download/qq_33283652/10915502