Spark算子

2019-02-08

1 Spark算子分类

  1. Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。
  2. Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。
  3. Action算子,这类算子会触发SparkContext提交作业。
Read More

Spark数据倾斜调优

2019-02-08

1 数据倾斜

数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。

Read More

Spark内存管理

2019-02-08

1 静态内存管理

1.1 堆内内存

在 Spark 最初采用的静态内存管理机制,存储内存、执行内存和其他内存的大小在 Spark 应用程序运行期间均为固定的,但用户可以应用程序启动前进行配置,堆内内存的分配如下所示:

Read More