mapreduce中我们自定义的mapper和reducer程序在执行后有可能遇上出错退出的情况,mapreduce中jobtracker会全程追踪任务的执行情况,对于出错的任务mapreduce也定义了一套自己的处理方式。
首先要明确的是mapreduce判断任务失败的方式。三种情况下任务会被认为执行失败:
在任务失败后,mapreduce会重新执行任务,重试的次数也是可以设定的,一般是4次。
最后还要注意的是mapreduce还有一个推测式执行机制,在这个机制下如果任务执行时间超出预期(这个预期是根据其他任务的执行时间定的),那么mapreduce会另外启动一个跟这个任务相同的任务并行执行,在某个任务最先执行完成之后杀死其他尚未完成的任务。这个机制主要是用来避免某个reduce任务的执行环境有问题或者某个reduce任务执行中发生了反常情况而迟迟不能完成拖慢整体进度。但是这个机制在有些情况下也会造成问题,例如:如果你的reduce程序在相同输入并发执行的情况下会造成冲突,那么推测式执行机制对你来说就是个极大的隐患。不过好在推测式执行机制也是可以关闭的。