Storm工作流程
2024-10-14 09:09:54
为什么storm的数据来自于消息队列?
Storm的解决问题的scope主要在于流计算,说流计算之前我们先简单的说下一般数据处理系统的过程。
一般数据处理简单说要有几个环节:数据采集,数据计算,结果输出。题主的问题主要是在数据采集和计算之间的对接。
一般来说计算系统(storm)不会自己产生业务数据,业务数据一般来自页面的埋点,或者对数据库log的解析,对于storm来说采集系统是个外部系统。
采集系统是数据的生产者,流计算(storm)是数据的消费者。二者的速度并不是时时刻刻匹配的,中间就需要需要一个缓冲,这个模型下消息队列在适合不过了。
当然为什么一般用kafka,这个超出了这个问题,我们暂不讨论。如果题主要处理的数据不是实时产生的而是静态数据那就没必要使用消息队列了,当然也没必要使用storm,使用Hadoop MR更合适。
关于spout会不会重复读取数据的问题,简单来说消息队列中数据会分partition支持多并发。
题主可以看看kafka的文档,一般消息队列,对一份数据(一个topic,对应离线系统的表)会分不同的parition,不同的spout并发可以读取不同的parition,
当然一个并发可以读取多个parition,但是多个并发读取一个parition会引起混乱这就是题主的问题。也就是实际应用中一个parition只会有一个并发读取。
模式:自动化数据采集 -> 消息队列(作用:缓冲) -> 运算框架
实例:flume - > kafka -> storm 转自:https://zhidao.baidu.com/question/1771687573246188220.html
最新文章
- Python标准库--typing
- Codility NumberSolitaire Solution
- WebForm基础--2016年12月27日
- 【Mybatis架构】输入、输出映射
- 贪心 Codeforces Round #287 (Div. 2) A. Amr and Music
- meta元素常用属性整理
- U3D UGUI学习5 - Layout和文字适配
- JAVA类与对象作业——动手动脑以及课后实验性问题
- XGrid绑定(转)
- 基于jQuery右侧带缩略图导航的焦点图
- NodeJS:树的反序列化
- Intellij IDEA 使用Debug模式运行非常慢
- Starship Troopers
- JSP EL表达式详细介绍
- spring mvc mybatis
- 数据库下载word预览功能的研究
- PHP的学习记录
- JavaScirpt的this指向 apply().call(),bind()个人笔记
- unity协程coroutine浅析
- 算法(第四版)C# 习题题解——2.4