Spark学习（二） -- Spark整体框架

标签（空格分隔）： Spark

还记得上次的wordCount程序嘛？通过这个小程序，我们来一窥Spark的框架是什么样子的。

sc.textFile("/usr/local/Cellar/apache-spark/1.3.0/README.md").flatMap(line => line.split(" ")).map(w => (w, 1)).reduceByKey(_+_).foreach(println)

整个单词统计的过程可以分为4个阶段：1）读取文件；2）单词分割；3）单词计数；4）单词归并。前三步都是非常容易并行的，但最后一步的并行度并不是很高。

RDD

将上面的单词计数操作用另一种形式表示：

Data1 ---Operation1---> Data2 ---Operation2---> Data3 ...... -->DataN

所以，整个过程其实就是在不断的进行数据输入和数据处理。

RDD(Resilient Distributed Dataset)，弹性分布式数据集，用来包装数据输入和数据处理，其主要特点是：

Operation有两种类型：Transformation和Action。

Spark在接收到提交的作业后，会进行如下处理：

Spark集群由4个节点构成：Driver, Master, Worker, Executor.