读书笔记-Hadoop大数据任务优化

      任务执行:

      推测式执行:当作业所有任务都开始运行的时候,jobtracker会统计所有任务的平均进度,如果tasktracker节点上的某个任务由于cpu过载过高或者配置比较低的话,导致了整个程序的运行缓慢,此时jobtracker会启动一个新的备份任务,原有任务和新任务哪个先执行完就杀掉慢的任务。

      任务jvm重用:当tasktracker被分配任务的时候会在本地启动java虚拟机,如果对于map有大量零碎的文件,对每一个map都启动虚拟机是很不合理的,于是可以让后续的任务可以重用jvm这样效率就会变得更好。设定:mapred.job.resuse.jvm.tasks默认为1,设置为-1不限次数。

      跳过坏记录:启动忽略模式可以将继续上次失败的记录直接跳过去,但是只能寻找个别得错误,通过调用skipbadrecored类启用。

      任务输出文件应该确保同一个任务的多个实例不会向同一个文件写操作。

     

猜你喜欢

转载自www.cnblogs.com/chunqiu0123/p/11751961.html