语义(Semantics)
2024-08-21 20:40:23
流计算语义(Semantics)的定义
每一条记录被流计算系统处理了几次
有三种语义:
1、At most once 一条记录要么被处理一次,要么没有被处理
2、At least once 一条记录可能被处理一次或者多次,可能会重复处理
3、Exactly once 一条记录只被处理一次
Zero data lost = 不管有失败还是没有失败,在每一个阶段都应该是at least once的语义
使用Kafka Direct方法,可以使得接受语义为Exactly once :
1、将kafka的partition当作RDD的partition,和读文件一样
2、不需要Receivers
3、不需要union多个DStream来达到启动多个Receiver
4、不需要WAL
val directKafkaStream = KafkaUtils.createDirectStream(…)
幂等output
只要数据源是一样,那么结果的输出就是一样,可以直接overwrite
最新文章
- [转载】——故障排除:Shared Pool优化和Library Cache Latch冲突优化 (文档 ID 1523934.1)
- VMware创建Linux虚拟机并安装CentOS(一)
- UVa 10720 - Graph Construction(Havel-Hakimi定理)
- lintcode-【中等】数飞机
- NetMQ发布订阅C#示例
- MPMoviePlayerController 视频播放器—IOS开发
- Android程序开发0基础教程(一)
- PowerShell入门(序):为什么需要PowerShell?
- 整理的Java List Set Map是否有序,元素是否允许重复
- Traceback (most recent call last): File ";c:\program files (x86)\microsoft visual studio\2019\community\common7\ide\extensions\microsoft\python\core\Packages\ptvsd\_vendored\pydevd\_pydevd_bundle\pyd
- 20165305 苏振龙《Java程序设计》第九周学习总结
- 从Oracle迁移到MySQL的各种坑及自救方案
- golang包time用法详解
- sqserver2008触发器
- flask小demo-数据查询
- 【转载】LeetCode 题目总结/分类
- vim 颜色主题设置
- Java学习笔记之:Java Servlet环境配置
- 在centOS上安装VNC
- 150. Best Time to Buy and Sell Stock II【medium】