Return to book
Review this book
About the author
Introduction
1.
Spark 概述
1.1.
Spark 生态环境
1.2.
Spark 运维相关
1.2.1.
graphite
2.
Spark 基础
2.1.
Spark 开发环境
2.1.1.
JDK安装配置
2.1.2.
Scala安装配置
2.1.3.
使用sbt创建scala项目
2.1.4.
使用maven创建Java项目
2.1.5.
使用Eclipse开发Spark应用
2.1.6.
使用Intellij IDEA开发Spark应用
3.
Spark RDD
3.1.
Spark Context
3.2.
Create RDD
3.2.1.
并行化容器
3.2.2.
外部数据集
3.3.
persist & cache
3.4.
Transformation
3.5.
Action
3.6.
Key-Value Pairs RDD
4.
Spark Streaming
5.
Spark SQL
6.
Spark MLlib
7.
Spark Graph X
7.1.
learning Bash
8.
Scala
8.1.
基本语法
8.2.
控制结构与函数
8.3.
数组
8.4.
Map和Tuple
8.5.
类
8.6.
对象
8.7.
package 和 import
8.8.
继承
8.9.
文件读写
9.
Spark source analysis
9.1.
spark rdd analysis
9.2.
spark persist analysis
9.3.
spark dag schedule analysis
9.4.
spark standalone master analysis
9.5.
spark standalone worker
Powered by
GitBook
A
A
Serif
Sans
White
Sepia
Night
Twitter
Google
Facebook
Weibo
Instapaper
Spark开发指南
RDD
RDD(Resilient Distributed Datasets,弹性分布式数据集),能够数据容错和被并行处理。
创建方式
有两种:并行化已经存在的容器、指向外部文件系统的数据集。