Spark中cache、persist、checkpoint

2019-02-08

1 Spark 持久化

1.1 概述

Spark 中一个很重要的能力是将数据 persisting 持久化(或称为 caching 缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓存是迭代算法和快速的交互式使用的重要工具。

Read More

Spark Shuffle

2019-02-08

Shuffle 过程本质上都是将 Map 端获得的数据使用分区器进行划分,并将数据发送给对应的 Reducer 的过程。

Read More

Spark 2.0 新特性

2019-02-08

Spark 2.0主要聚焦于三个方面:对标准的SQL支持统一DataFrame和Dataset API提供SparkSession。下面重点介绍最后两点。

Read More