Spark Streaming揭秘 Day6

关于SparkStreaming Job的一些思考

Job是SparkStreaming的重要基础，今天让我们深入，进行一些思考。

首先，有个挺重要的概念要区分下，就是SparkStreaming中的Job和Spark core的Job并不相同，可以认为SparkStreaming中的Job是一个应用程序，不同于Spark core中的Job。

从Job的的定义来看，类似于一个Java Bean，核心是其run方法，相当于Java中线程要处理的Runnable逻辑的封装。

Job是基于DStreams生成，更准确的说，基于DStreams的依赖关系graph来产生Jobs。

DStream有三种类型，包括InputDstreams、OutputDStreams(逻辑级别的action，会封装Spark的action)、TransformationDStreams(中间转换逻辑)，后面的DStreams对前面的有依赖。

从下面的代码中，我们可以看出Job主要是基于outputStreams来生成。

在Spark Streaming中以时间方式触发Job，主要采用定时方式生成，也包涵其他方式(比如状态操作state对很多Batch Duration做汇总处理)。

其核心是通过一个timer来实现定时调用

而timer是通过callback方法，来调用我们的Job生成过程，和应用程序进行衔接。

下面这段是Job生成最为关键的代码：

在这段代码中包涵了Job的生成和提交的完整过程：
包含几个步骤：
1.获取当前时间段的数据，通过receiverTracker
2.根据Dstream graph生成Job
3.生成Input信息
4.把生成的Job交给jobScheduler运行
5.进行checkpoint

最终会调用JobHandler中的run方法来运行

用如下的流程图来将上述内容进行一下串联。

通过如上的分析，我们可以知道Job是逻辑级别的，对RDD的物化。在Streaming代码中，操作会被翻译成RDD的操作，但是被封装在函数体里，仅仅在执行时才拿出来调用。实际是由底层RDD的action来触发的(所以才有机会调度和优化)。

而对于传统的批处理方式来说，可以认为仅仅是流式处理的一种特例，可以说，SparkStreaming提供了一种更为通用的大数据解决方案。

DT大数据每天晚上20：00YY频道现场授课频道68917580