不多说,直接上干货!

SparkStreaming的高层抽象DStream

    

  为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流。

  DStream 是一个持续的RDD 序列。

  可以从外部输入源创建DStream,也可以对其他DStream 应用进行转化操作得到新DStream。

Dstream与RDD的关系

        

      

  DStream 是一个持续的RDD 序列。

  对Dstream的转换操作最终会映射到内部随时间不断生成的RDD上。

Batch duration

    

  Spark Streaming按照设定的batch duration来累积数据,周期结束时把周期内的数据作为一个RDD,并提交任务给Spark Engine。

  batch duration的大小决定了Spark Streaming提交作业的频率和处理延迟。

  batch duration的大小设定取决于用户的需求,一般不会太大。

最新文章

  1. My Tornado Particle Effect
  2. LDA(文档主题模型)
  3. 重构第11天 使用策略代替Switch(Switch to Strategy)
  4. Java统计数据库表中记录数
  5. 【python cookbook】【数据结构与算法】18.将名称映射到序列的元素中
  6. 出现,视图必须派生自 WebViewPage 或 WebViewPage错误解决方法
  7. Java实现查看当前目录下的文件
  8. TXT四则运算计算器 后日谈
  9. Gradle 1.12 翻译——第十四章. 教程 - 杂七杂八
  10. extJS4.2.0 Json数据解析,嵌套及非嵌套(二)
  11. MD5加密算法(java及js)
  12. 跨域 - 自定义 jsonp实现跨域
  13. DAY05、基本数据类型与内置方法
  14. 【面试 redis】【第十二篇】redis的相关面试问题
  15. [JS]给String对象添加方法,使传入的字符串字符之间以空格分开输出
  16. mysql5.6以上版本: timestamp current_timestamp报1064/1067错误
  17. angular ng-repeat元素swiper无法滑动问题解决
  18. maven打包加时间戳
  19. Spring Cloud Eureka 学习记录
  20. pycharm如何快速替换代码中的字符

热门文章

  1. matplotlib显示中文字体
  2. Resolving Strong Reference Cycles for Closures
  3. RXSwift源码浅析(一)
  4. PhotoZoom控制面板简介说明
  5. 创建dynamics CRM client-side (一) - Client-side Events
  6. MySQL_视图/触发器/事务/存储过程/函数
  7. JS 100内与7相关的数
  8. Python 使用matplotlib模块模拟掷骰子
  9. maven项目发布后访问jsp页面报错
  10. 关于错误CSC : error CS0006:未能找到元数据文件