YARN中的失败分析

对于在YARN中运行的MapReduce程序，需要考虑以下几种实体的失败
任务、application master、节点管理器、资源管理器

1. 任务运行失败

任务运行失败类似于MapReduce1的情况。JVM的运行时异常和突然退出被反馈给application master，该任务尝试被标记为失败。类似的，通过在umbilical channel上的ping缺失(由mapreduce.task.time设定超时值)，application master会注意到挂起的任务，任务尝试再次被标记为失败。
4次尝试后任务标记为失败(map任务由mapreduce.map.maxattemps设置，reduce任务由mapreduce.reduce.maxattempts设置)。如果一个作业中超过mapreduce.map.failures.maxpercent的map任务或超过mapreduce.reduce.failures.maxpercent的reduce任务运行失败，name整个作业就失败了。

2. application master运行失败

YARN中的应用程序在运行失败的时候有几次尝试机会，就像MapReduce任务在遇到硬件或网络故障时要进行几次尝试一样。在默认情况下，只要应用程序运行失败一次就会被标记为失败，但我们可以设置yarn.resourcemanager.am.max-retries属性增加允许失败的次数。
Application master向资源管理器发送周期性的心跳，当application master发生故障时，资源管理器将检测到该故障并在一个新的容器(由节点管理器管理)中开始一个新的master实例。MapReduce application master可以恢复故障应用程序所运行任务的状态，使其不必重新运行。默认情况下是不能恢复的，因此故障application master将重新运行它们的所有任务，但我们可以设置yarn.app.mapreduce.am.job.recovery.enable为true，启用这个功能。
客户端向application master轮询进度报告，如果它的application master运行失败，客户端就需要定位新的实例。在作业初始化期间，客户端向资源管理器询问并缓存application master的地址，使其每次需要向application master查询是不必重载资源管理器。但是，如果application master运行失败，客户端就会在发出状态更新请求时超时，这时客户端会返回资源管理器请求新的application master的地址。

3. 节点管理器运行失败

如果节点管理器失败，就会停止向资源管理器发送心跳信息并被移出可用节点资源管理器池。默认值为600000（10分钟）的属性yarn.resourcemanager.nm.liveness-monitor.expiry-interval-ms决定着资源管理器认为节点管理器失败之前的等待时间。
如果应用程序的运行失败次数过高，那么节点管理器可能会被拉黑。由application master管理黑名单，对于MapReduce，如果一个节点管理器上有超过三个任务失败，application master就会尽量将任务调度到不同的节点上。可以通过mapreduce.job.maxtaskfailures.per.tracker设置该阈值。

4. 资源管理器运行失败

资源管理器失败是非常严重的问题，没有资源管理器，作业和任务容器将无法启动。资源管理器的设计从一开始就通过使用检查点机制将其状态保存到持久性存储，从而实现从失败中恢复。
在资源管理器失败后，由管理员启动一个新的资源管理器实例并恢复到保存的状态。状态由系统中的节点管理器和运行的应用程序组成。(注意，任务并非资源管理器状态的组成部分，因为它们由application master管理。因此，存储的状态数量比jobtracker中的状态更好管理)
资源管理器使用的存储容量通过yarn.resourcemanager.store.class的属性进行配置。默认值为org.apache.hadoop.yarn.server.resourcemanager.recovery.MemStore，这保存在内存中，因此可操作性不是很高