===== 窄依赖 =====
父分区对应一个子分区
{{:pasted:20151102-220254.png}}
如果RDD 2的partition2失效,需要依赖RDD 1的partition 2,3进行重算
===== 宽依赖 =====
父分区对应多个子分区(父分区partition1对应子分区的partition1,2)
{{:pasted:20151102-215037.png}}
如果RDD 2的partition2失效,需要依赖RDD 1的partition 1,2,3进行重算。但是partition 1中有一部分数据对RDD 2的partition2是无效的(那一部分用来生成RDD 2的partition1了)。可见相比窄依赖,宽依赖总是会计算额外的无效数据,所以宽依赖重做比窄依赖重做更废资源
===== checkpoint =====
spark是靠lineage重做机制来容错的,如果lineage过长,会导致重做成本过高。这个时候可以引入checkpoint机制(checkpoint的本质是将RDD写入磁盘做检查点)当一个RDD所有的操作完成之后,可对该RDD做checkpoint操作。checkpoint完成之后会删除所有对该RDD的祖先依赖。且失败重做时也只需要从检查点开始即可。