sparkStreamming原理

一、Spark Streamming 是基于spark流式处理引擎，基本原理是将实时输入的数据以时间片（秒级）为单位进行拆分，然后经过spark引擎以类似批处理的方式处理每个时间片数据。

二、SparkStreamming作业流程

　　1、客户端提交作业后，启动Driver(Driver是spark作业的Master)

　　2、每个作业包含多个Excutor,每个Excutor都是以进程的方式运行Task，Spark Streamming至少包含一个Receiver task.

　　3、Receiver收到数据后生存Block,并把Block汇报给Driver,然后备份另外一个Excutor上面。

　　4、Receiver Tracker维护Receiver汇报的BlockId.

　　5、Driver定时自动JobGernerator,根据DS的关系生成逻辑RDD，然后创建jobSet,交给JobSchedule。

　　6、JobSchedule负责调度jobset,交给DAGSchedule, DAG Schedule根据逻辑RDD,生成对应的stages,每一个Stage包含一个或者多个Task。

　　7、Task Schedule负责吧Task调度到Excutor上，并维护Task的运行状态。

　　8、当Task，Stages, jobSet完成后，单个batch才算完成。

三、spark Streamming和Storm

　　流式系统的特点

　　　　低延迟，秒级或者更短的时间。

　　　　高性能。

　　　　分布式

　　　　可扩展，伴随着业务发展，数据量，计算量可能会越来越大，所以要求是可扩展的。

　　　　容错，分布式系统中的通用问题，一个节点挂了不能影响应用。

　　两者之间区别

　　　　同一套系统，安装spark之后，一切都有了。

　　　　spark有较强的容错能力，storm使用更广泛，更稳定。

　　　　storm是使用Clojure语言去写的，它的很多扩展都是使用Java完成的。

　　　　任务执行方面与storm的区别。

　　　　　　spark streamming 数据进来是一小段的RDD，数据进行切分成一小块，一小块进行批处理。

　　　　　　Storm是基于record形式来的，进来的是一个个的Tuple,进来一条就会处理一条。

　　　　中间过程实质上就是spark引擎，只不是spark streamming在spark之后引擎动了一些手脚，对进入spark引擎之前的数据进行了一个封装，方便进行基于时间片的小批量作业，交给spark进行计算。

巴特西