使用SparkContexxt的parallelize方法把Scala容器转为RDD。例如:
val rdd = sc.parallelize(List(1, 2, 3), 3)
第一个参数为:scala.Seq类型
第二个参数,可选,设置RDD的分区partition数量。如果没有使用,Spark会根据集群的大小自动设置相对合理的分区数量。过大或过小的分区数,会造成性能的急剧下降。因此,使用此参数可作为性能调优的一个方面。
parallelize是延迟执行的,也就是说在调用parallelize后,并且在第一次对parallelize创建的RDD调用action操作之前,