Spark优化
2019-02-08
详细内容参见参考文献——美团技术博客中的总结。
Carpe diem
详细内容参见参考文献——美团技术博客中的总结。
Spark 中一个很重要的能力是将数据 persisting 持久化(或称为 caching 缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓存是迭代算法和快速的交互式使用的重要工具。
Shuffle 过程本质上都是将 Map 端获得的数据使用分区器进行划分,并将数据发送给对应的 Reducer 的过程。
Spark 2.0主要聚焦于三个方面:对标准的SQL支持、统一DataFrame和Dataset API和提供SparkSession。下面重点介绍最后两点。