{{:pasted:20151102-171054.png}} * spark的核心是RDD(可以理解为一个元数据结构,记录了Block与Node的映射关系) * 每个RDD由若干个partition(逻辑单位)组成 * 分区是机器之间调度的最小单位 * 每个parition的物理存储是一个Block * Block由BlockManager管理 * 每个partition会散落在不同的节点,以便被分布式执行