流计算语义(Semantics)的定义
每一条记录被流计算系统处理了几次
有三种语义:
1、At most once 一条记录要么被处理一次,要么没有被处理
2、At least once 一条记录可能被处理一次或者多次,可能会重复处理
3、Exactly once 一条记录只被处理一次

Zero data lost = 不管有失败还是没有失败,在每一个阶段都应该是at least once的语义
 
使用Kafka Direct方法,可以使得接受语义为Exactly once :
1、将kafka的partition当作RDD的partition,和读文件一样
2、不需要Receivers
3、不需要union多个DStream来达到启动多个Receiver
4、不需要WAL
val directKafkaStream = KafkaUtils.createDirectStream(…)
幂等output
只要数据源是一样,那么结果的输出就是一样,可以直接overwrite

最新文章

  1. [转载】——故障排除:Shared Pool优化和Library Cache Latch冲突优化 (文档 ID 1523934.1)
  2. VMware创建Linux虚拟机并安装CentOS(一)
  3. UVa 10720 - Graph Construction(Havel-Hakimi定理)
  4. lintcode-【中等】数飞机
  5. NetMQ发布订阅C#示例
  6. MPMoviePlayerController 视频播放器—IOS开发
  7. Android程序开发0基础教程(一)
  8. PowerShell入门(序):为什么需要PowerShell?
  9. 整理的Java List Set Map是否有序,元素是否允许重复
  10. Traceback (most recent call last): File "c:\program files (x86)\microsoft visual studio\2019\community\common7\ide\extensions\microsoft\python\core\Packages\ptvsd\_vendored\pydevd\_pydevd_bundle\pyd
  11. 20165305 苏振龙《Java程序设计》第九周学习总结
  12. 从Oracle迁移到MySQL的各种坑及自救方案
  13. golang包time用法详解
  14. sqserver2008触发器
  15. flask小demo-数据查询
  16. 【转载】LeetCode 题目总结/分类
  17. vim 颜色主题设置
  18. Java学习笔记之:Java Servlet环境配置
  19. 在centOS上安装VNC
  20. 150. Best Time to Buy and Sell Stock II【medium】

热门文章

  1. JAVAWEB实现增删查改(图书信息管理)之修改功能实现
  2. 【C++札记】实现C++的string类
  3. vue页面params传值的必须传name
  4. Java开发环境搭建(一)
  5. PCL中将回调函数封装到类中
  6. 5_PHP数组_3_数组处理函数及其应用_1_快速创建数组的函数
  7. rabbitmq保证数据不丢失方案
  8. input file 无法打开手机端文件选择器
  9. 转换属性transform
  10. python代码工具小结