一:yarn的组成
yarn主要就是为了调度资源,管理任务等。
ResourceManager:yarn上主节点,接收客户端提交的任务,对资源进行分配
NodeManager:yarn上从节点,主要进行任务计算
ApplicationMaster:ResourceManager接收到任务,会在某个NodeManager上启动一个ApplicationMaster进程,负责任务执行的资源分配,任务生命周期的监控等。
Container:资源分配的单位,ApplicationMaster向ResourceManager申请资源的单位
JobHistoryServer:查看已经完成的任务历史日志记录的服务
TimeLineServer:hadoop2.4后新特性,监控yarn上正在执行的所有任务
二:调度器
使用哪种调度器取决于yarn-site.xml当中的
yarn.resourcemanager.scheduler.class 这个属性的配置
1)队列调度器(FIFO Scheduler)
按照应用提交顺序,排成队列,一个一个进行资源分配,当第一个资源满足后进行下一个资源分配。
2)容量调度器(capacity scheduler)apache默认使用
Capacity 调度器允许多个组织共享整个集群,每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源,这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。除此之外,队列内部又可以垂直划分,这样一个组织内部的多个成员就可以共享这个队列资源了,在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。
3)公平调度器(Fair Scheduler)CDH默认使用
Fair调度器的设计目标是为所有的应用分配公平的资源(对公平的定义可以通过参数来设置)。公平调度在也可以在多个队列间工作。举个例子,假设有两个用户A和B,他们分别拥有一个队列。当A启动一个job而B没有任务时,A会获得全部集群资源;当B启动一个job后,A的job会继续运行,不过一会儿之后两个任务会各自获得一半的集群资源。如果此时B再启动第二个job并且其它job还在运行,则它将会和B的第一个job共享B这个队列的资源,也就是B的两个job会用于四分之一的集群资源,而A的job仍然用于集群一半的资源,结果就是资源最终在两个用户之间平等的共享
三:常用参数设置
第一个参数:container分配最小内存
yarn.scheduler.minimum-allocation-mb 1024 给应用程序container分配的最小内存
第二个参数:container分配最大内存
yarn.scheduler.maximum-allocation-mb 8192 给应用程序container分配的最大内存
第三个参数:每个container的最小虚拟内核个数
yarn.scheduler.minimum-allocation-vcores 1 每个container默认给分配的最小的虚拟内核个数
第四个参数:每个container的最大虚拟内核个数
yarn.scheduler.maximum-allocation-vcores 32 每个container可以分配的最大的虚拟内核的个数
第五个参数:nodeManager可以分配的内存大小
yarn.nodemanager.resource.memory-mb 8192 nodemanager可以分配的最大内存大小,默认8192Mb