一个消息(tuple)从spout发送出来，可能导致成百上千消息基于此消息创建，这些消息构成一个树状结构，称之为“tuple tree”,如下图：

同时满足了下面两个条件，storm会认为消息被完整的处理了,如果在指定的时间内，一个消息衍生出来的tuple tree未被完全处理成功，则认为消息未被完整处理。这个超时时间可以通过任务参数Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS进行配置，默认是30秒。

tuple tree 不再生长
tuple tree 中的任何消息被标记为"已处理"

消息的生命周期

ISpout接口

public interface ISpout extends Serializable {
    void open(Map conf, TopologyContext context, SpoutOutputCollector collector);
    void close();
    void activate(); 
    void deactivate();
    void nextTuple();
    void ack(Object msgId);
    void fail(Object msgId);
}

首先，使用spout的nextTuple()方法从spout请求一个tuple。收到请求后，spout使用open方法中提供的SpoutOutputCollector向它的输出流发送一个或多个消息。每发送一个消息，spout会给这个消息提供一个id，它将被用来标识这个消息。

假设我们从kestrel队列中读取消息，spout会将kestrel队列为这个消息设置的id作为此消息的id,向SpoutOutputCollector中发送的格式如下：

_collector.emit(new Values("field1","field2",3),msgId);

接下来，这个消息会被发送到后续业务处理的bolts，并且strom会跟踪由此消息产生出来的新消息。当检测到一个消息衍生出来的tuple tree被完整处理后，storm会调用spout中的ack方法，并将此消息的id作为参数传入。同理，如果某消息处理超时，则此消息对应的spout的fail方法会被调用，调用时此消息的id会被作为参数传入。一个消息只会由发送它的哪个spout任务调用ack或fail，如果系统中的某个spout由多个任务运行，消息也只会由穿件它的spout任务来应答（ack或fail）。

当KestrelSpout从kestrel队列中读取一个消息，表示它“打开”了队列中某个消息。这意味着，此消息并为从队列中真正删除，而是被设置为“pending”状态，它等待来自客户端的应答，被应答以后，此消息才会被真正的从队列中删除。处于pending状态的消息不会被其他客户端看到。另外，如果一个客户端意外断开连接，则由此客户端“打开”的所有消息都会被重新加入到队列中。当消息被“打开”的时候，kestrel队列同时会为这个消息提供一个唯一表示。

KestrelSpout使用这个唯一的标识作为这个tuple的id，当ack或fail被调用时，KestrelSpout会把ack或者fail连同id一起发送给kestrel队列，kestrel会将消息从队列中真正删除或者将它重新放回队列中。

扫描二维码关注公众号，回复： 577456 查看本文章

可靠相关的API

为了使用Storm提供的可靠处理特性，我们需要做两件事情。

只要在tuple tree中创建了一个新节点，就要明确地通知storm
当处理完一个单独的消息时，告知storm这棵tuple tree的变化状态

为tuple tree中指定的节点增加一个新的节点，我们称之为锚定（anchoring）。锚定是在我们发送消息的同时进行的。bolt将包含整句话的消息分解为一系列的消息，每个消息包含一个单词。

public class WordBolt extends BaseRichBolt {
	OutputCollector _collector;

	@Override
	public void prepare(Map stormConf, TopologyContext context,
			OutputCollector collector) {
		_collector = collector;
	}

	@Override
	public void execute(Tuple tuple) {
		String value = tuple.getString(0);
		for(String word : value.split(" ")){
			//锚定方式发送消息
			_collector.emit(tuple,new Values(word));
		}
	}

	@Override
	public void declareOutputFields(OutputFieldsDeclarer declarer) {
		declarer.declare(new Fields("word"));
	}
}

每个消息都通过这种方式被锚定，把输入消息作为emit方法的第一个参数。因为word消息被锚定在了输入消息上，这个输入消息时发送过来的tuple tree的跟节点，如果任意一个word消息处理失败，派生这个tuple tree的哪个消息将会重新发送。

与此相反，如果以这种方式发送消息，将会导致这个消息不会被锚定。如果tuple tree中的消息处理失败，派生此tuple tree的消息不会被重新发送，根据任务的容错级别，有时候适合发送一个非锚定的消息。_collector.emit(new Values(word))

很多Bolt遵循特定的处理流程，读取一个消息，发送它派生出来的子消息，在execute结尾处应答此消息，storm有一个BasicBolt接口封装了上述流程，使用这种方式比之前稍微简单一些，实现功能是一样的。发送到BasicOutputCollector的消息会被自动锚定到输入消息中，并且，当execute执行完毕时，会自动应答输入消息。

//BaseRichBolt与BaseBasicBolt
public class WordBolt extends BaseBasicBolt {

	@Override
	public void declareOutputFields(OutputFieldsDeclarer declarer) {
		declarer.declare(new Fields("word"));
	}

	@Override
	public void execute(Tuple tuple, BasicOutputCollector collector) {
		String value = tuple.getString(0);
		for(String word : value.split(" ")){
			//默认会锚定到tuple
			collector.emit(new Values(word));
		}
	}
}

高效地实现tuple tree

Tuple是如何被跟踪的呢？系统中有成千上万的消息，如果为每个spout发送的消息都构建一棵树的话，很快内存就会耗尽。所以必须采用不同的策略跟踪每个消息。由于使用了新的跟踪算法，storm只需要固定的内存（大约20字节）就可以跟踪一棵树。这个算法是storm正确运行的核心，也是storm最大的突破。

Acker任务记录了spout消息id到一对值的映射。第一个值就是spout的任务id，通过这个id，acker就知道消息处理完成是该通知哪个spout的任务。第二个值是一个64bit的数字，称之为ack val，他是树中所有消息的随机id的异或结果。ack val表示了整棵树的状态，无论这棵树多大，只要固定大小的数字就可以跟踪整棵树。当消息被创建和被应答是都会有相同的消息id发送过来做异或。

每当acker发现一棵树的ack val值为0是，它就知道这棵树已经被完全处理了。

选择合适的可靠性级别

Acker任务是轻量级的，所以在拓扑中并不需要太多的acker存在。可以通过Storm UI观察acker任务的吞吐量，如果吞吐量不够的话，说明需要增加额外的acker。如果你并不要求每个消息必须被处理，那么可以关闭消息的可靠处理机制，从而获取较好的性能。关闭消息的可靠处理机制意味着系统的消息会减半。

有三种方法可以调整消息的可靠性处理机制。

将参数Config.TOPOLOGY_ACKERS设置为0，通过此方法，当spout发送一个消息时，它的ack方法将立刻被调用。
Spout发送一个消息时，不指定此消息的id，当需要关闭特定消息可靠性是，可以使用此方法。
如果你不在意派生出来的自消息的可靠性，则子消息不进行锚定，子消息失败不会引起任何spout重发消息。

Storm消息可靠处理

消息的生命周期

高效地实现tuple tree

选择合适的可靠性级别

猜你喜欢