Powered by GitBook

Spark开发指南

并行化容器

　　使用SparkContexxt的parallelize方法把Scala容器转为RDD。例如：

val rdd = sc.parallelize(List(1, 2, 3), 3)

第一个参数为：scala.Seq类型

第二个参数，可选，设置RDD的分区partition数量。如果没有使用，Spark会根据集群的大小自动设置相对合理的分区数量。过大或过小的分区数，会造成性能的急剧下降。因此，使用此参数可作为性能调优的一个方面。

延迟执行

parallelize是延迟执行的，也就是说在调用parallelize后，并且在第一次对parallelize创建的RDD调用action操作之前，