介绍两种HBase的数据备份或者容灾方案:Snapshot,Replication;

一、Snapshot

开启快照功能,在hbase-site.xml文件中添加如下配置项:

<property>

<name>hbase.snapshot.enabled</name>

<value>true</value>

</property>

在hbase shell中使用clone_snapshot, delete_snapshot, list_snapshots, restore_snapshot, snapshot命令可是是想创建快照,查看快照,通过快照恢复表,通过快照创建一个新的表等功能,需要注意的是:如果该表开启了replication功能实现主从同步则在使用restore_snapshot功能对主表进行恢复时,必须先停止replication功能并且redo the bootstrap,因为replication是基于WAL日志实现的,而snapshot是直接在hdfs层面不是基于hbase的put、delete等API进行的,不会写WAL日志。

二、Replication

可以通过replication机制实现hbase集群的主从模式,具体步骤如下:

1、  zookeeper不能被hbase托管,如果主从hbase集群共用一个zk集群,则zookeeper.znode.parent不能都是默认的hbase,可以配置为hbase-master和hbase-slave

2、 在主hbase集群的hbase-site.xml中添加配置项:

<property>

<name>hbase.replication</name>

<value>true</value>

</property>

<property>

<name>replication.source.nb.capacity</name>

<value>25000</value>

<description>主集群每次向从集群发送的entry最大的个数,默认值25000,可根据集群规模做出适当调整</description>

</property>

<property>

<name>replication.source.size.capacity</name>

<value>67108864</value>

<description>主集群每次向从集群发送的entry的包的最大值大小,默认为64M</description>

</property>

<property>

<name>replication.source.ratio</name>

<value>1</value>

<description>主集群使用的从集群的RS的数据百分比,默认为0.1,需调整为1,充分利用从集群的RS</description>

</property>

<property>

<name>replication.sleep.before.failover</name>

<value>2000</value>

<description>主集群在RS宕机多长时间后进行failover,默认为2秒,具体的sleep时间是: sleepBeforeFailover + (long) (new Random().nextFloat() * sleepBeforeFailover) </description>

</property>

<property>

<name>replication.executor.workers</name>

<value>1</value>

<description>从事replication的线程数,默认为1,如果写入量大,可以适当调大</description>

</property>

3、在从hbase集群的hbase-site.xml中添加:

<property>

<name>hbase.replication</name>

<value>true</value>

</property>

4、 进入主集群的shell,执行:

add_peer 'ID' 'CLUSTER_KEY'

The ID must be a short integer. To compose the CLUSTER_KEY, use the following template:

hbase.zookeeper.quorum:hbase.zookeeper.property.clientPort:zookeeper.znode.parent

This will show you the help to setup the replication stream between both clusters. If both clusters use the same Zookeeper cluster, you have to use a different zookeeper.znode.parent since they can't write in the same folder.

5、  在从集群中创建一个与master集群相同的表

6、 修改表定义,开启复制功能

disable 'your_table'

alter 'your_table', {NAME => 'family_name', REPLICATION_SCOPE => '1'}

enable 'your_table

此处的REPLICATION_SCOPE => '1'中的1,与第3步中设置到“ID”相同

提示:

1、 hbase的replication,如果是在建立主表和从表的关系前,主表已经有数据则该部分数据不会被同步到从表中,因为replication是依赖WAL日志进行的同步,可以通过如下步骤实现:

a)   通过snapshot把历史数据导入到从集群;

b)   开启replication;

c)   通过Export工具把快照和开启replication之间的数据导入到从表;

d)   通过VerifyReplication工具校验数据的一致性。

2、  如果客户端在写入数据时设置不写WAL日志,则会导致从集群不会同步数据;

3、  主从同步是异步的,因此数据不一定会立即同步到从表;

4、  创建主、从表后,在向主表写入数据时,停止从集群,写完后再开启从集群,这时如果主集群的WAL日志还在则会同步到从表中;

  由于不写WAL日志的数据不会被同步到从集群,因此对于重要的数据建议再通过snapshot进行定期的备份。

最新文章

  1. Android开发学习之路-Git的极简教程?
  2. 如何运用TurboDemo创建视频示例
  3. Building Websites in ASP.NET
  4. linux 2.6 驱动笔记(二)
  5. 关于js预编译以及js文件执行顺序的几个问题。
  6. bash 常用操作
  7. SGU326 Perspective(指派问题)
  8. SQLite入门与分析(四)---Page Cache之事务处理(2)
  9. Memcache缓存与Mongodb数据库的优势和应用
  10. html5之canvas困惑 在canvas标签内需要设置了宽跟高,如果在css中设置同样的宽跟高,画出来的图像变形了?
  11. jquery 滚动条 scroll 和 animate出现的问题总结
  12. svn出现“Previous operation has not finished; run &#39;cleanup&#39; if it was interrupted”,解决方法
  13. C#4 for循环 迭代法 穷举法应用
  14. C++ Primer 学习笔记_32_STL实践与分析(6) --再谈string类型(下)
  15. DCM、PLL、PMCD、MMCM相关
  16. day22
  17. oracle 日期格式化 TO_CHAR (datetime) 修饰语和后缀
  18. JavaScript indexOf() 方法详解
  19. matlab知识点汇集
  20. linux系统之定制rpm包

热门文章

  1. 解题2(IpIsSameSubNet)
  2. python随笔 join 字典,列表的清空 set集合 以及深浅拷贝(重点..难点)
  3. shell 通过shift获得某位后的入参
  4. CRM销售管理功能
  5. web前端开发浏览器兼容性处理大全
  6. 用两个栈实现队列(python)
  7. VM 端口映射问题
  8. ORACLE的强制索引
  9. [剑指Offer]判断一棵树为平衡二叉树(递归)
  10. java 线程Thread 技术--线程状态与同步问题