Operating mechanism of each framework

HDFS write data process

1:客户端向namenode发送请求
2:namenode响应可以上传文件
3:请求上传第一个block块
4:返回node01,node02,node03,表示次用这三个节点
5:项DataNode请求建block传输通道
6:DataNode通过请求
7:传输数据
8:传输数据完成,向namenode发送信息

DataNode working mechanism (heartbeat mechanism)

1:DataNode启动后向namenode发送注册信息
2:namenode返回注册成功
3:没一个小时上报所有block块信息
4:没三秒发送心跳信息,超过10分钟没收到则判定节点失效

mapreduce workflow

1:客户端submit提交前,获取带处理文件的信息, 形成一个任务分配的规划
2:提交信息,计算Maptask的数量
3:读取文件,inputformat
4:进行逻辑运算
5:项环形缓冲区写数据,K.V对。缓冲区默认100M,达到默认值80%时溢写到文件
6:(merge)合并。并对数据排序,
7:combiner合并
8:下放到reducetask本地磁盘,reducetask读取数据,组合数据。
9:outputformat输出文件到HDFS上面

yarn resource scheduler mechanism

1:MR程序提交到客户端所在的节点
2:YarnRunner向ResourceManager申请一个Application
3:RM将该应用程序的资源路径返回给YarnRunner
4:该程序将运行所需资源提交到HDFS上
5:程序资源提交完毕后,申请运行mrAppMaster。
6:RM将用户的请求初始化成一个Task。
7:其中一个NodeManager领取到Task任务。
8:该NodeManager创建容器Container,并产生MRAppmaster。
9:Container从HDFS上拷贝资源到本地。
10:MRAppmaster向RM 申请运行MapTask资源。
11:RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
12:MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
13:MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask
14:ReduceTask向MapTask获取相应分区的数据。
15:程序运行完毕后,MR会向RM申请注销自己。

Guess you like

Origin blog.csdn.net/weixin_44429965/article/details/107562661