转自:http://www.open-open.com/lib/view/open1426065900123.html

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。

Apache Storm

Storm中, 先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责 转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数 组,对应着固定的键值对。

Storm的流处理可对框架中名为Topology(拓扑)的DAG(Directed Acyclic Graph,有向无环图)进行编排。这些拓扑描述了当数据片段进入系统后,需要对每个传入的片段执行的不同转换或步骤。

Apache Spark

Spark Streaming是 核心Spark API的一个扩展,它并不会像Storm那样一次一个地处理数据流,而是在处理前按时间间隔预先将其切分为一段一段的批处理作业。Spark针对持续性数 据流的抽象称为DStream(DiscretizedStream),一个DStream是一个微批处理(micro-batching)的RDD(弹 性分布式数据集);而RDD则是一种分布式数据集,能够以两种方式并行运作,分别是任意函数和滑动窗口数据的转换。

Apache Samza

Samza处 理数据流时,会分别按次处理每条收到的消息。Samza的流单位既不是元组,也不是Dstream,而是一条条消息。在Samza中,数据流被切分开来, 每个部分都由一组只读消息的有序数列构成,而这些消息每条都有一个特定的ID(offset)。该系统还支持批处理,即逐次处理同一个数据流分区的多条消 息。Samza的执行与数据流模块都是可插拔式的,尽管Samza的特色是依赖Hadoop的Yarn(另一种资源调度器)和Apache Kafka。

Samza可以使用以本地键值存储方式实现的容错检查点系统存储数据。这样Samza即可获得“至少一次”的交付保障,但面对由于数据可能多次交付造成的失败,该技术无法对汇总后状态(例如计数)提供精确恢复。

共同之处

以上三种实时计算系统都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,它们的共同特色在于:允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行。此外,它们都提供了简单的API来简化底层实现的复杂程度。

三种框架的术语名词不同,但是其代表的概念十分相似:

对比图

下面表格总结了一些不同之处:

数据传递形式分为三大类:

  1. 最多一次(At-most-once):消息可能会丢失,这通常是最不理想的结果。
  2. 最少一次(At-least-once):消息可能会再次发送(没有丢失的情况,但是会产生冗余)。在许多用例中已经足够。
  3. 恰好一次(Exactly-once):每条消息都被发送过一次且仅仅一次(没有丢失,没有冗余)。这是最佳情况,尽管很难保证在所有用例中都实现。

另一个方面是状态管理:对状态的存储有不同的策略,Spark Streaming将数据写入分布式文件系统中(例如HDFS);Samza使用嵌入式键值存储;而在Storm中,或者将状态管理滚动至应用层面,或者使用更高层面的抽象Trident。

最新文章

  1. PHPCMS V9 点击量排行调用方法
  2. 单据BE构建
  3. bzoj 1791: [Ioi2008]Island 岛屿
  4. 1.异步消息Jms及其JmsTemplate的源代码分析,消息代理ActiveMQ
  5. HDU 4617 Weapon (简单三维计算几何,异面直线距离)
  6. awk简明教程
  7. Kruskal算法构造最小生成树
  8. C++ 在字符串中插入子串+推断字符串是否由空格组成
  9. uitextField单词的方法和抖动的限制
  10. iOS开发之protocol和delegate
  11. 修改searchBar的返回按钮的显示文字
  12. Linux进程作业常用命令
  13. Java终结方法的使用(终结守卫者)
  14. 爸爸又给Spring MVC生了个弟弟叫Spring WebFlux
  15. MVC bootstrap-table显示数据时显示No matching records found
  16. html+css+jq随记
  17. 【redis】windows 怎样关闭redis
  18. 1873: This offer(zzuli)
  19. 如何设置 sass 全局变量,js如何使用 sass 变量
  20. Python进阶【第九篇】装饰器

热门文章

  1. django之单表操作
  2. sql server性能调优
  3. 【JUnit】junit4的几个assert方法
  4. 解决linux下python多版本兼容问题?
  5. 快速入门Python中文件读写IO是如何来操作外部数据的?
  6. beego——模型定义
  7. php 内存泄漏
  8. python3 requests模块
  9. linux 清理cache中的内存
  10. docker内域名无法解析问题