用户工具


ResouceManager

  • 基于zookeeper的HA,一旦master挂掉,shandby立刻变成master

datanode

  • datanode失败后,由于心跳断了会被ResourceManager发现
  • RM通知ApplicationMaster某datanode上的task失败了
  • AM 根据机制判断任务是否需要重做

Application Master

  • AM失败后由RM重新启动
  • AM重启后不会把所有task重做(AM会把已经完成的任务持久化,即使重启后也只需要运行未完成的task即可)