0.0 前言 本文主要基于最新的Spark 2.1.0版本.阅读本文可以对Spark 2.1.0的学习过程,运行流程,关键组件,原理有所了解.文章有点长,你也可以直接阅读感兴趣的部分,但是还是建议全面了解. 1.0 简介 Spark是Apache软件基金会下的分布式系统开源项目.在官网中这样概况这个项目 Apache Spark is a fast and general engine for large-scale data processing. 说Spark是一个用于大规模数据处理的快速通