hadoop 之 storm (编程模型、并发度、架构模型)

目录

  • 1、编程模型
  • 2、并发度
  • 3、架构模型

1、编程模型

  •     DataSource:外部数据源;
  •     Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt;
  •     Bolt:     接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理,发送给下一个Bolt或者是存储到某种介质上,介质可以是Redis可以是mysql,或者其他;
  •     Tuple:Storm内部中数据传输的基本单元,里面封装了一个List对象,用来保存数据;
  •     StreamGrouping:   数据分组策略:shuffleGrouping(Random函数), Non Grouping(Random函数), FieldGrouping(Hash取模)、Local or ShuffleGrouping 本地或随机,优先本地。

2、并发度

  •     用户指定的一个任务,可以被多个线程执行,并发度的数量等于线程的数量。一个任务的多个线程,会被运行在多个Worker(JVM)上,有一种类似于平均算法的负载均衡策略。尽可能减少网络IO,和Hadoop中的MapReduce中的本地计算的道理一样。

3、架构模型

  •     Nimbus:任务分配;
  •     Supervisor:接受任务,并启动worker,worker的数量根据端口号来的。
  •     Worker:执行任务的具体组件(其实就是一个JVM),可以执行两种类型的任务,Spout任务或者bolt任务。
  •     Task:Task=线程=executor。 一个Task属于一个Spout或者Bolt并发任务。
  •     Zookeeper:保存任务分配的信息、心跳信息、元数据信息。

猜你喜欢

转载自blog.csdn.net/py_tamir/article/details/85243668