作者:Jack47

转载请保留作者和原文出处

欢迎关注我的微信公众账号程序员杰克,两边的文章会同步,也可以添加我的RSS订阅源

本文是Storm系列之一,主要介绍Storm的架构设计,推荐读者在阅读Storm介绍(一)的基础之上,阅读这一篇。本文只是作者的读书笔记,偏重于浅层次的架构介绍,如果想真正理解内部设计时候的权衡,还需要更多的去阅读Storm源码。

理解Storm的架构,有助于帮助我们理解大型分布式系统设计中需要解决的问题,以及解决问题的思路,帮助我们更好的进行Storm性能调优化。

架构#

先上一张Storm的架构图,如果熟悉 GFS和Hadoop的架构,会发现这些系统的架构图都很类似。

Storm架构图

各节点的作用##

如果你熟悉Hadoop的话,可以这样做一下类比:

Hadoop | Storm | 在Storm中发挥的作用|

----------|-------

JobTracker|Nimbus(只有一个)|

  • 在集群中分发代码
  • 给Slave机器/supervisor分配任务
  • 失败检测(failure monitoring)
  • 快速失败(fail fast),无状态的(可以kill -9)

TaskTracker|Supervisor(有很多个)|

  • 监听分配到自己所在机器的工作
  • 根据Nimbus的指示来起停worker进程
  • 快速失败,无状态的(可以kill -9)

MapReduce任务 | Topology |

  • 一直处理消息(直到你kill它)
  • 一个运行中的拓扑包含分散在很多机器上运行的多个worker进程

可以看到Nimbus是调度器,WorkerTask的容器,Task是任务的真正执行者。

启动拓扑

为了在集群上启动一个拓扑,需要首先把代码打包成一个“胖jar包”--必须包含所有的依赖代码,除了Storm它自身,因为Storm集群会提供。然后在一台安装了storm命令行的机器上通过storm jar命令来提交拓扑:

storm jar my-topology-version-with-dependency.jar com.corp.MyTopology arg1 arg2

这个命令会连到Nimbus,上传jar包。接下来Nimbus会把拓扑的代码运送到多台不同的机器或者JVM上。只有当拓扑在机器上部署成功了并且在JVM中初始化了之后,才能真正开始处理消息。

Master结点(Master node)

在分布式系统中,调度服务非常重要,它的设计,会直接关系到系统的运行效率,错误恢复(fail over),故障检测(error detection)和水平扩展(scale)的能力。

集群上任务(task)的调度由一个Master节点来负责。这台机器上运行的Nimbus进程负责任务的调度。另外一个进程是Storm UI,可以界面上查看集群和所有的拓扑的运行状态。

从节点(Slave node)

Storm集群上有多个从节点,他们从Nimbus上下载拓扑的代码,然后去真正执行。Slave上的Supervisor进程是用来监督和管理实际运行业务代码的进程。在Storm 0.9之后,又多了一个进程Logviewer,可以用Storm UI来查看Slave节点上的log文件。

在配置文件storm.yaml中,决定了一台机器上运行几个worker:

supervisor.slots.ports:
- 6700
- 6701
- 6702

ZooKeeper的作用

ZooKeeper在Storm上不是用来做消息传输用的,而是用来提供协调服务(coordination service),同时存储拓扑的状态和统计数据。

  • ZooKeeper相当于一块黑板,SupervisorNimbus和worker都在上面留下约定好的信息。例如Supervisor启动时,会在ZooKeeper上注册,Nimbus就可以发现SupervisorSupervisor在ZooKeeper上留下心跳信息,Nimbus通过这些心跳信息来对Supervisor进行健康检测,检测出坏节点
  • 由于Storm组件(component)的状态信息存储在ZooKeeper上,所以Storm组件就可以无状态,可以 kill -9来杀死
    • 例如:Supervisors/Nimbus的重启不影响正在运行中的拓扑,因为状态都在ZooKeeper上,从ZooKeeper上重新加载一下就好了
  • 用来做心跳
    • Worker通过ZooKeeper把孩子executor的情况以心跳的形式汇报给Nimbus
    • Supervisor进程通过ZK把自己的状态也以心跳的形式汇报给Nimbua
  • 存储最近任务的错误情况(拓扑停止时会删除)

Storm的容错(Fault Tolerance)机制#

正如“搭建一个Storm集群”一文介绍的一样,必须用工具如daemontools或者monit来监控Nimbus和Supervisor的后台进程。这样如果Nimbus或者Supervisor进程挂掉,会被daemontools检测到,并进行重启。

NimbusSupervisor进程被设计成快速失败(fail fast)的(当遇到异常的情况,进程就会挂掉)并且是无状态的(状态都保存在Zookeeper或者在磁盘上)。

最重要的是,worker进程不会因为Nimbus或者Supervisor挂掉而受影响。这跟Hadoop是不一样的,当JobTracker挂掉,所有的任务都会没了。

  1. 当Nimbus挂掉会怎样?

    如果Nimbus是以推荐的方式处于进程监管(例如通过supervisord)之下,那它会被重启,不会有任何影响

    否则当Nimbus挂掉后:

    • 已经存在的拓扑可以继续正常运行,但是不能提交新拓扑
    • 正在运行的worker进程仍然可以继续工作。而且当worker挂掉,supervisor会一直重启worker。
    • 失败的任务不会被分配到其他机器(是Nimbus的职责)上了
  2. 当一个Supervisor(slave节点)挂掉会怎样?

    如果Supervisor是以推荐的方式处于进程监管(例如通过(supervisord)[supervisord.org/])之下,那它会被重启,不会有任何影响

    否则当Supervisor挂掉: 分配到这台机器的所有任务(task)会超时,Nimbus会把这些任务(task)重新分配给其他机器。

  3. 当一个worker挂掉会怎么样?

    当一个worker挂掉,supervisor会重启它。如果启动一直失败那么此时worker也就不能和Nimbus保持心跳了,Nimbus会重新分配worker到其他机器

  4. Nimbus算是一个单点故障吗?

    如果Nimbus节点挂掉,worker进程仍然可以继续工作。而且当worker挂掉,supervisor会一直重启worker。但是,没有了Nimbus,当需要的时候(如果worker机器挂掉了)worker就不能被重新分配到其他机器了。

    所以答案是,Nimbus在“某种程度”上属于单点故障的。在实际中,这种情况没什么大不了的,因为当Nimbus进程挂掉,不会有灾难性的事情发生

硬件要求##

ZooKeeper###

  1. 推荐精心设计过的机器,因为ZooKeeper是Storm的瓶颈

    • 每个机器使用一个ZK的实例
    • 注意因为同一台机器上的其他进程或者虚拟机他们是共享这台机器的,所以可能会影响ZK的性能(来源)
  2. I/O是ZooKeeper的瓶颈
  • 把ZooKeeper的存储放到自己的磁盘上
  • 使用SSD会显著提升性能
  • 正常情况下,Zookeeper的每次写操作都会同步到磁盘,这就导致了两次磁盘寻址操作(一次是数据,一次是数据的日志)。当所有的worker都发心跳给ZooKeeper时,可能会显著影响性能(来源)。
    • 需要监控ZooKeeper节点的I/O负载
  1. 推荐在生产环境上运行的ZooKooper集群有至少3个节点,这样即使有一个ZooKeeper服务器挂掉了(例如进行维护),也是可以的。

Storm安全性

原始设计Storm时,完全没有把安全性考虑在内

现在安全性能相关的功能在一步步加进来

Storm 0.9.x版本上的安全问题:

  1. 没有验证机制(authentication),没有授权机制(authorization)
  2. 传输的数据(例如worker之间)没有加密
  3. ZooKeeper上存储的数据没有访问限制
  4. 如果Nimbus的Thrift端口没有锁住,任意的用户代码都可以在节点上执行

更多Storm安全性方面的建议见这里

题外话:

在接触Storm之后,有个问题在我的脑海里升起,国内的大公司,比如Baidu,Ali,腾讯,都是有诞生Storm这类实时计算框架的土壤的,可是为什么没有做出来呢?

Apache Storm Basic Training

Fault tolerance

Storm in pictures

Storm 0.9 Basic Training


如果您看了本篇博客,觉得对您有所收获,请点击右下角的“推荐”,让更多人看到!

资助Jack47写作,打赏一个鸡蛋灌饼钱吧
微信打赏
支付宝打赏

最新文章

  1. Design and Implementation of the Sun Network File System
  2. .NET平台开源项目速览(6)FluentValidation验证组件介绍与入门(一)
  3. TCP Fast Open
  4. 关于精简安装office2010的步骤
  5. fedora yum 使用代理的方法
  6. 结合DDE指标来分析成本分布的重要作用
  7. windows server 2008镜像重启后密码变为默认密码的问题的解决方案
  8. POJ1505 Copying Books(二分法)
  9. java 变量和常量
  10. 使用apache反向代理tomacat
  11. SpringMVC 实现文件上传与下载,并配置异常页面
  12. java中的几个概念
  13. 为什么Elasticsearch查询变得这么慢了?
  14. mysql字符集问题汇总
  15. STM32终端优先级,看过很多感觉这个写的直白易懂
  16. 【2.0】SpringBoot多环境yml文件配置
  17. FortiGate上架前准备
  18. 异步与并行~CancellationTokenSource对线程的作用
  19. bzoj1345 序列问题
  20. 在myeclipse中修改发布到tomcat的项目目录名称

热门文章

  1. Database Replay和Consolidated Database replay
  2. 移动站应该尝试百度MIP的五个原因
  3. 我的MYSQL学习心得(一) 简单语法
  4. [原] Cgroup CPU, Blkio 测试
  5. spring boot 实战:我们的第一款开源软件
  6. 应该是Angular2的一个bug?
  7. Android 添加ActionBar Buttons
  8. Hadoop 2.x 生态系统及技术架构图
  9. Win10连接远程桌面时提示“您的凭据不工作”
  10. ASP.NET Aries JSAPI 文档说明:AR.Form、AR.Combobox