Spark开发指南

RDD

RDD(Resilient Distributed Datasets,弹性分布式数据集),能够数据容错和被并行处理。

创建方式

有两种:并行化已经存在的容器、指向外部文件系统的数据集。