etcd 是一个分布式的k/V存储系统。核心使用了RAFT分布式一致性协议。一致性这个概念,它是指多个服务器在状态达成一致,但是在一个分布式系统中,因为各种意外可能,有的服务器可能会崩溃或变得不可靠,它就不能和其他服务器达成一致状态。这样就需要一种Consensus协议,一致性协议是为了确保容错性,也就是即使系统中有一两个服务器当机,也不会影响其处理过程。

为了以容错方式达成一致,我们不可能要求所有服务器100%都达成一致状态,只要超过半数的大多数服务器达成一致就可以了,假设有N台服务器,N/2 +1 就超过半数,代表大多数了。

raft协议核心要点:

  • Leader选举(Leader Election)

  • 日志同步 (Log Replication)

    • leader收到client的更新请求后,会讲更新的内容同步给所有follower。
  • 集群状态的正确性 (Safety)

    • 保证日志的一致性
    • 保证选举的正确性

服务器状态:

  • leader
    处理所有客户端交互,日志复制等,一个任期只有一个。

  • follower
    完全被动的选民,是只读的。

  • candidate
    候选人,可以被选举为新领导。

状态之间的转换:

 

任期(terms)

 

如上图,蓝色代表 Election 模式,绿色代表 Operation 模式

  • 在每个任期内最多一个leader
  • 有些可能没有leader
  • 每一个服务会维护当前的任期值
    • 每一个rpc请求中都会携带term值
    • 如果一个peer实例拥有老的term值,则更新为最新的term值并状态变为follower
  • 一旦一个服务选举为leader,就会进入 operation 模式

Leader选举

etcd服务启动后,会进入 follower 状态,leader 心跳超时后会进入选举状态。
选举总体流程图如下:

 

选举流程分解

  • 初始状态都是Follower

     
  • S1 超时, 变为Candidate,开始选举, 发起投票请求

     
  • S1 变为Leader

    • S2 和 S3 同意投票给S1

       
  • Leader S1开始接受客户端写请求

    • Leader接受到客户端写请求后,会将数据更新写入到log中
    • 如果S2和S3收到客户端写请求,会将请求转发到Leader S1
    • Leader会异步的将更新的log同步到Follower S2和S3
    • 超过多数的Follower将数据成功同步到log后,Leader会将该条数据更新为Committed状态,Committed index会随着增长。

       
       

选举的正确性

  1. 在每一任期内,最多允许一个服务被选举为leader

    • 在一个任期内,一个服务只能投一票
    • 只有获得大多数投票才能作为leader
  2. 如果有多个candidate,最终一定会有一个被选举为leader
    • 如果多个candidate同时发起了选举,导致都没有获得大多数选票时,每一个candidate会随机等待一段时间后重新发起新一轮投票(一般是随机等待150-300ms)

日志的一致性

1. 客户端写入数据到 leader:

    • leader 将数据写入到 log
    • leader将更新的数据广播到所有的followers
    • 多数follower成功写入log后,leader会将该数据提交到状态机
    • leader 把数据提交后,返回给client结果
    • 在下一个心跳中,leader 通知follower更新已经提交的数据Crashed/slow followers ?

2. leader会一直重试同步数据到follower,直到成功

最新文章

  1. SQLServer 各版本区别
  2. CentOS 7 环境配置
  3. 当前标识(IIS APPPOOL\dfcreport)没有对“C:\Windows\Microsoft.NET\Framework64\v2.0.50727\Temporary ASP.NET Files”的写访问权限。
  4. Java后台传前台json数组
  5. 现在流行什么 JS库/框架?
  6. 动态调用wcf接口服务
  7. JSOI2008 最小生成树计数
  8. c# 之 New新知
  9. JSON和XML的比较
  10. asp.net textbox keyup事件触发后台的textchange事件
  11. C#线程安全使用(五)
  12. 第十三节,使用带有全局平均池化层的CNN对CIFAR10数据集分类
  13. TraceView工具的使用
  14. (转载)Sublime Text 3 快捷键大全
  15. Scala集合类型详解
  16. jquery miniui 学习笔记
  17. codeforces 779D - String Game
  18. [图解tensorflow源码] Session::Run()流程图 (单机版)
  19. jdbc第三天
  20. 2018软工实践—Alpha冲刺(5)

热门文章

  1. 【阿菜做实践】利用go语言写一个简单的Pow样例
  2. 【简】题解 P4297 [NOI2006]网络收费
  3. Spring MVC环境搭建和配置
  4. Python 如何管理类的创建行为
  5. ICCV2021 | Tokens-to-Token ViT:在ImageNet上从零训练Vision Transformer
  6. HTTP状态码一览表
  7. Semaphore信号量源码解析
  8. springboot等javaweb项目将jar包安装(打包)到本地Maven仓库
  9. Linux宝塔面板部署运行jar包
  10. Go1.18中的泛型编程