Spark开发指南

并行化容器

  使用SparkContexxt的parallelize方法把Scala容器转为RDD。例如:

val rdd = sc.parallelize(List(1, 2, 3), 3)

第一个参数为:scala.Seq类型

第二个参数,可选,设置RDD的分区partition数量。如果没有使用,Spark会根据集群的大小自动设置相对合理的分区数量。过大或过小的分区数,会造成性能的急剧下降。因此,使用此参数可作为性能调优的一个方面。

延迟执行

parallelize是延迟执行的,也就是说在调用parallelize后,并且在第一次对parallelize创建的RDD调用action操作之前,