一、起因:

  Hbase是一个列式存储,nosql类型的数据库,类似mongodb。

  目前似乎没有提供批量删除的方法,只有一个单行删除的命令:deleteall 'tablename', rowkey

二、删除方法:

  方法一:通过写 shell 脚本,从 hbase shell 查出需要删除的 rowkey ,拼成删除命令(deleteall 'tablename', rowkey),写到文本 del_temp.txt ;然后执行 hbase shell del_temp.txt

  方法二:通过建映射表,比如在 hive 建一个映射表,然后写 hql 查出需要删除的 rowkey ,拼成删除命令(deleteall 'tablename', rowkey),写到文本 del_temp.txt ;然后执行 hbase shell del_temp.txt

  方法三:通过python/ java 代码,调用 hbase 的单行删除方法,写个循环删除

  方法四:通过建映射表,比如在 hive 建一个映射表,将 需要保留的数据 通过 hql 查询出来,备份到 hive 的一张临时表 ;然后 在hbase shell 里面 执行 truncate 'tablename' ,清空 hbase 的数据; 最后 在将数据 从 hive 的备份表 读出来,插入 映射表,写回 hbase;

  总结:

  前面3种方法,本质上都是在 hbase 中逐行删除;而第4种方法,是利用hive的map reduce倒数据。对于不熟悉 hbase 和 java 语法的开发人员而言,使用24方法,是灵活性最好的。

三、代码:

  假设hbase有一张表,表名:test_turboway,列族:cf,以第二种删除方法为例:

  1、hive 建映射表:

CREATE EXTERNAL TABLE edw.test_turboway_hbase(
`keyid` string COMMENT 'from deserializer',
`title` string COMMENT 'from deserializer',
`bizdate` string COMMENT 'from deserializer',
`loginid` string COMMENT 'from deserializer')
ROW FORMAT SERDE
'org.apache.hadoop.hive.hbase.HBaseSerDe'
STORED BY
'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
'hbase.columns.mapping'=':key,cf:title,cf:bizdate,cf:loginid',
'serialization.format'='')
TBLPROPERTIES (
'COLUMN_STATS_ACCURATE'='false',
'hbase.table.name'='test_turboway',
'numFiles'='',
'numRows'='-1',
'rawDataSize'='-1',
'totalSize'='',
'transient_lastDdlTime'='')

  2、记录hive查询要删除的数据,拼成命令:

hive -e "select concat('deleteall \'test_turboway\',\'',keyid,'\'') from edw.test_turboway_hbase where loginid = '20181122'" > del_temp.txt && echo 'exit' >> del_temp.txt

  3、hbase shell 执行删除命令

hbase shell del_temp.txt > del.log

最新文章

  1. 7Hibernate高级----青软S2SH(笔记)
  2. Concurrency vs. Parallelism
  3. [USACO1.1]坏掉的项链Broken Necklace
  4. 【xml】转义字符 <等符号出现的原因
  5. html部分---通用标签与属性;
  6. ASP.NET- 执行SQL超时的解决方案
  7. 编tuxedo遇到服务问题
  8. 关于struts2的checkboxlist、select等标签发生could not be resolved as a collection/array/map/enumeration/iterator type异常的记录
  9. ibatis3.0调用Oracle的存储过程
  10. java 通过TCP\UDP 协议实现多人聊天,点对点,文件传送-----分服务器端和客户端
  11. Cisco动态路由配置
  12. Android属性动画完全解析(下),Interpolator和ViewPropertyAnimator的用法
  13. Java基础篇——JVM之GC原理(干货满满)
  14. hdu - 2586 (LCA板子题)
  15. 第一篇-ubuntu18.04访问共享文件夹
  16. 关于IOC和DI
  17. vs与linux的交叉编译环境搭建
  18. S5PV210初始化系统时钟
  19. 初学Jmeter添加Http请求,执行接口测试
  20. python:django

热门文章

  1. Spring MVC 常用Jar包
  2. Java 使用stringTemplate导出大批量数据excel(百万级)
  3. windows 端口映射
  4. 动画隐藏UITabBarController与UINavigationController
  5. 下拉刷新对象RefreshObject
  6. JS 正则 /g 注意事项
  7. Cloudera Manager 4.6 安装部署hadoop CDH集群
  8. JavaScript的DOM操作获取元素的大小
  9. __autoreleasing 与 局部变量
  10. linux中Vi编辑器使用