用户工具


  • spark的核心是RDD(可以理解为一个元数据结构,记录了Block与Node的映射关系)
    • 每个RDD由若干个partition(逻辑单位)组成
      • 分区是机器之间调度的最小单位
      • 每个parition的物理存储是一个Block
      • Block由BlockManager管理
    • 每个partition会散落在不同的节点,以便被分布式执行