galera mariadb集群恢复策略

1 galera mariadb
首先MariaDB是一个数据库，可以看成是MySQL的一个分支，由于MySQL被SUN收购，所以MySQL面临着闭源的风险，当时MySQL之父Widenius并没有加入SUN，而是基于MySQL的代码开发新的分支，命名为MariaDB，并全部开源。

Galera是Galera Cluster，是一种为数据库设计的新型的、数据不共享的、高度冗余的高可用方案，galera mariadb就是集成了Galera插件的MariaDB集群，Galera本身是具有多主特性的，所以galera mariadb不是传统的主备模式的集群，而是多主节点架构。

2 galera mariadb的配置方式
我的一篇OpenStack高可用模块博客中其中有一段是描述搭建galera mariadb的（2.2.1数据库服务高可用配置）：OpenStack高可用方案及配置

3 galera mariadb的一些基本概念
（1）当前节点数据库状态

MariaDB [(none)]> show status like 'wsrep_local_state_comment'；

+---------------------------+--------+

| Variable_name | Value |

+---------------------------+--------+

| wsrep_local_state_comment | Synced |

+---------------------------+--------+

状态查询表：

状态	状态说明
Open	节点启动成功，尝试连接到集群
Primary	节点已处于集群中，在新节点加入时，选取donor进行数据库同步时会产生的状态
Joiner	节点处于等待接收或正在接收同步文件的状态
Joined	节点完成数据同步，但还有部分数据不是最新的，在追赶与集群数据一致的状态
Synced	节点正常提供服务的状态，表示当前节点数据状态与集群数据状态是一致的
Donor	表示该节点被选为Donor节点，正在为新加进来的节点进行全量数据同步，此时该节点对客户端不提供服务

（2）Primary Component
在网络发生故障时，由于网络连接原因，集群可能被分成好几个小集群，但只能有一个集群可以继续进行数据修改，集群的这部分称为Primary Component

（3）GTID
英文全称为Global Transaction ID，由UUID和sequence number偏移量组成，wsrep api中定义的集群内部全局事务id，一个顺序id，用来集群集群中状态改变的唯一标志及队列中的偏移量

（4）SST
英文全称为State Snapshot Transfer，即状态快照迁移：通过从一个节点到另一个节点迁移完整的数据拷贝（全量拷贝）。当一个新的节点加入到集群中，新的节点从集群中已有节点进行数据同步，开始进行状态快照迁移。
Galera中有两种不同的状态迁移方法：
<1>逻辑数据迁移：采用mysqldump命令，这是一个阻塞式的方法。
<2>物理数据迁移：该方法采用rsync、rsync_wan、xtrabackup等方法直接在服务器之间拷贝数据，接收的服务器在拷贝完数据后启动服务。
可以通过配置文件中修改SST的方式：
wsrep_sst_method=rsync

（5）IST
英文全称为Increamental State Transfer，即增量状态迁移：集群一个节点通过识别新加入的节点缺失的事务操作，将该操作发送，而并不像SST那样的全量数据拷贝。最常见情况就是该节点之前已经存在于该集群，只是关机重启了，重新加入该集群会使用IST进行同步。

（6）grastate.dat
可以通过该文件查看到该节点记录的uuid和seqno，也就是上面说的GTID，当节点正常退出Galera集群时，会将GTID的值更新到该文件中，如下：

[root@abc3 ~]# cat /var/lib/mysql/grastate.dat

# GALERA saved state

version: 2.1

uuid: 30ae87da-8e8e-11e8-810c-6a8da854119b

seqno:

safe_to_bootstrap:

如果该节点数据库服务正在运行，则seqno的值是-1的

（7）gvwstate.dat
当节点形成或改变Primary Component时，节点会创建或更新该文件，确保节点保留最新Primary Component的状态，如果节点正常关闭，该文件会被删除。

4 一些故障场景的恢复
（1）场景1

其中1个节点挂了，一般只需要重启A节点的服务即可

（2）场景2

所有节点都挂了，重启服务时不能单纯的全部重启，需要找状态最新的那个节点启动，且启动时需要加上--wsrep-new-cluster参数，该节点启动后其它节点再正常启动服务即可。
这里就涉及到一个关键点，那就是怎么找哪个是状态最新的那个节点，第5点介绍查找最新节点的策略。

5 恢复策略和自动恢复脚本
（1）恢复策略
<1>首先判断当前数据库集群中是否有服务在启动着，如果有则直接启动服务即可
<2>如果当前所有节点的数据库服务都挂了，则需要找状态最新的那个节点让它携带--wsrep-new-cluster参数启动，启动起来之后其它节点直接启动服务即可。
查找最新节点策略：
首先获取各节点的grastate.dat文件中的seqno值，值最大的那个就是最新的节点；如果所有节点的seqno都是-1，则去比较所有节点的gvwstate.dat文件中的my_uuid和view_id是否相等，相等的那个则作为第一个启动节点，第一个启动节点启动后，其它节点正常启动即可；如果依然未找到则需要人工干预来恢复了。
以下是我自己写的自动恢复脚本：

#!/usr/bin/python2

# -*- coding: utf-8 -*-

import os

import time

import traceback

import logging

import sys

# 初始化日志对象

logger = logging.getLogger("check-or-recover-galera")

log_file='/var/log/check-or-recover-galera/check-or-recover-galera.log'

if not os.path.exists(log_file):

    os.system('mkdir -p /var/log/check-or-recover-galera/')

    os.system('touch ' + log_file)

formatter = logging.Formatter('%(asctime)s (filename)s[line:%(lineno)d] %(levelname)s %(message)s')

file_handler = logging.FileHandler(log_file)

file_handler.setFormatter(formatter)

logger.addHandler(file_handler)

logger.setLevel(logging.DEBUG)

import socket

PORT = 10000

BUFF_SIZE = 10240

def test_connect_ok(ip):

    client_sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

    client_sock.settimeout(3)

    client_sock.connect((ip, PORT))

    client_sock.close()

# 这个方法要求在要远程的节点上需要有个进程在监听PORT端口等待处理命令

def send_request(ip, data, timeout=60):

    test_connect_ok(ip)

    client_sock = socket.socket(socket.AF_INET,socket.SOCK_STREAM)

    client_sock.settimeout(timeout)

    client_sock.connect((ip, PORT))

    client_sock.send(data)

    ret_data = client_sock.recv(BUFF_SIZE)

    client_sock.close()

    return ret_data

def remote_send_request(ip, data, timeout=60):

    res_remote = send_request(ip, json.dumps(data), timeout=timeout)

    if res_remote is None or res_remote == '':

        raise Exception('res_remote is null')

    res_remote = json.loads(res_remote)

    if res_remote['ret_state'] != 'success':

        raise Exception('ret_state is not success')

    return res_remote

# 默认vmbr0是本地ip

def get_local_ip():

    cmd_out = os.popen('cat /etc/sysconfig/network-scripts/ifcfg-vmbr0 2>/dev/null |grep IPADDR').read()

    if cmd_out and cmd_out != '':

        cmd_out = cmd_out.strip()

        cmd_out = cmd_out.replace('"', '').replace(' ', '')

        tmp = cmd_out.split('=')

        if len(tmp) >= 2:

            ip = tmp[1]

            return ip

    return None

# 获取各节点的seqno值

def get_all_nodes_seqno(node_ips_arr):

    seqno_dict = {}

    data = {'req_type': 'get_seqno'}

    for node_ip in node_ips_arr:

        try:

            res_remote = remote_send_request(node_ip, data)

            seqno_dict[node_ip] = res_remote['seqno']

        except Exception,e:

            seqno_dict[node_ip] = -1

            logger.error(traceback.format_exc())

    return seqno_dict

# 获取各节点的gvwstate.dat文件的my_uuid和view_id的比对值结果

def get_all_nodes_uv_is_equal(node_ips_arr):

    uv_equal_dict = {}

    data = {'req_type': 'get_uv_equal_value'}

    for node_ip in node_ips_arr:

        try:

            res_remote = remote_send_request(node_ip, data)

            uv_equal_dict[node_ip] = res_remote['equal']

        except Exception,e:

            uv_equal_dict[node_ip] = 0

            logger.error(traceback.format_exc())

    return uv_equal_dict

# 检查自身mariadb服务是否已经启动

def check_is_active_now():

    is_active = os.popen('systemctl is-active mysqld_safe 2>/dev/null').read()

    is_active = is_active.strip()

    if is_active and is_active == 'active':

        logger.info('the mariadb is already up')

        return True

    return False

# 第一个启动的节点

def start_mariadb_with_wsrep():

    os.system("sed -i 's/--wsrep-new-cluster//' /usr/lib/systemd/system/mysqld_safe.service")

    os.system("sed -i 's/user=mysql/user=mysql --wsrep-new-cluster/' /usr/lib/systemd/system/mysqld_safe.service")

    os.system("sed -i 's/safe_to_bootstrap:.*/safe_to_bootstrap: 1/' /var/lib/mysql/grastate.dat")

    os.system('systemctl daemon-reload')

    os.system('systemctl start mysqld_safe')

    # 将配置文件恢复回去

    os.system("sed -i 's/--wsrep-new-cluster//' /usr/lib/systemd/system/mysqld_safe.service")

    os.system('systemctl daemon-reload')

    time.sleep(10)

    if check_is_active_now() is True:

        return True

    else:

        logger.error('use option wsrep-new-cluster start mariadb failed')

    return False

def main():

    while True:

        try:

            time.sleep(10)

            # 先检测自己的mariadb是否已经自己启动

            if check_is_active_now() is True:

                time.sleep(60)

                continue

            # 这里应该先检测下thintaskd服务是否已经启动，如果还没启动则需等待

            is_thintaskd_active = os.popen('/etc/init.d/thintaskd status 2>/dev/null |grep active |grep running').read()

            if not is_thintaskd_active or is_thintaskd_active == '':

                logger.info('wait thintaskd service start')

                time.sleep(5)

            # 获取当前galera的集群的各节点的ip

            node_ips_info = os.popen("cat /etc/my.cnf.d/mariadb-server.cnf |grep '^wsrep_cluster_address'").read()

            node_ips_str = node_ips_info.split('gcomm://')[1]

            node_ips_str = node_ips_str.strip()

            node_ips_arr = node_ips_str.split(',')

            # 检测其它节点是否已经有在运行着的

            data = {'req_type': 'check_mariadb_service'}

            has_mariadb_service_on = False

            for node_ip in node_ips_arr:

                try:

                    res_remote = remote_send_request(node_ip, data)

                    state = res_remote['state']

                    if state == 'active':

                        has_mariadb_service_on = True

                        # 找到在运行着的节点

                        logger.info('find the running mariadb service node:' + node_ip)

                        # 直接启动自己服务

                        os.system('systemctl start mysqld_safe')

                        time.sleep(10)

                        if check_is_active_now() is True:

                            time.sleep(60)

                        else:

                            logger.info('start mariadb service error')

                        break

                except Exception,e:

                    logger.error(traceback.format_exc())

                    logger.error('check_mariadb_service for ' + node_ip + ' failed, error:' + e.message)

            if has_mariadb_service_on is True:

                continue

            # 如果所有节点的mariadb都没在运行，则需要寻找一个节点进行启动

            seqno_dict = get_all_nodes_seqno(node_ips_arr)

            logger.info('get seqno_dict:%s', seqno_dict)

            # 根据seqno值判断哪个节点为启动节点

            first_boot_node = None

            max_seqno = -2

            for key in seqno_dict:

                if seqno_dict[key] > max_seqno:

                    max_seqno = seqno_dict[key]

                    first_boot_node = key

            if first_boot_node is not None:

                logger.info('find the first_boot_node by seqno, first_boot_node:' + first_boot_node)

                # 判断这个启动节点是不是自己，如果是就启动，否则等待其它节点启动起来

                if first_boot_node == get_local_ip():

                    if start_mariadb_with_wsrep() is True:

                        time.sleep(60)

                else:

                    logger.info('wait node ' + first_boot_node + ' start mariadb service')

                    time.sleep(5)

                continue

            else:

                logger.info("all node's seqno is -1")

            # 如果所有节点的seqno都是-1则说明可能是全部主机非正常停止的，比如断电等

            # 这时则通过比对gvwstate.dat文件的my_uuid和view_id是否相等来决定从这个节点启动

            # 当集群时干净状态停止的时候该文件是被删除的

            uv_equal_dict = get_all_nodes_uv_is_equal(node_ips_arr)

            # 根据返回的值判断哪个是启动节点，1表示是，0表示否

            for key in uv_equal_dict:

                if uv_equal_dict[key] == 1:

                    first_boot_node = key

                    logger.info('find the first_boot_node by uv_equal_dict, first_boot_node:' + first_boot_node)

                    break

            if first_boot_node is not None:

                # 判断这个启动节点是不是自己，如果是就启动，否则等待其它节点启动起来

                if first_boot_node == get_local_ip():

                    if start_mariadb_with_wsrep() is True:

                        time.sleep(60)

                    else:

                        logger.info('wait node ' + first_boot_node + ' start mariadb service')

                        time.sleep(5)

                continue

            else:

                logger.info("can not find first_boot_node by gvwstate.dat file")

            # 如果经过上述步骤依然找不到启动节点，需要人工进行干预了，或者可以随机挑选个节点进行启动

            logger.error('can not find first_boot_node, maybe you should ask admin to deal with this problem')

            time.sleep(5)

        except Exception,e:

            logger.error(traceback.format_exc())

            logger.error('error:' + e.message)

if __name__ == "__main__":

    sys.exit(main())

以下是自定义的mysqld_safe.service服务的文件，你可以将它放在/usr/lib/systemd/system/mysqld_safe.service

[Unit]

Description=Thinputer API Server

After=syslog.target network.target

[Service]

Type=notify

NotifyAccess=all

TimeoutStartSec=

User=root

ExecStartPre=/usr/libexec/mysql-check-socket

ExecStartPre=/usr/libexec/mysql-prepare-db-dir %n

ExecStart=/bin/mysqld_safe --defaults-file=/etc/my.cnf.d/mariadb-server.cnf --user=mysql

[Install]

WantedBy=multi-user.target

巴特西

galera mariadb集群恢复策略

最新文章

热门文章