目的:
使用Sqoop将Oracle中的数据导入到HBase中,并自己主动生成组合行键!

环境:
Hadoop2.2.0
Hbase0.96
sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz
Oracle11g
jdk1.7
Ubuntu14 Server

这里关于环境吐槽一句:
最新版本号的Sqoop1.99.3功能太弱。仅仅支持导入数据到HDFS,没有别的不论什么选项,太土了。(如有不允许见欢迎讨论给出解决方式)

命令:
sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username ZHAOBIAO --P --table  CMS_NEWS_0625   --hbase-create-table --hbase-table 147patents --column-family patentinfo
--split-by CREATE_TIME --hbase-row-key "CREATE_TIME,PUBLISH_TIME,ID,TITLE"



数据源相关參数说明:
--connect:数据库连接串

--username:用户名

--P:交互式输入password
--table:表名
-m:并行运行sqoop导入程序的map task的数量,在不指定的情况下默认启动4个map
--split-by:并行导入过程中。各个map task依据哪个字段来划分数据段,该參数最好指定一个能相对均匀划分数据的字段,比方创建时间、递增的ID

HBase相关參数说明:
--hbase-table:hbase中接收数据的表名
--hbase-create-table:假设指定的接收数据表在hbase中不存在,则新建表

--column-family:列族名称,全部源表的字段都进入该列族

--hbase-row-key:假设不指定则採用源表的key作为hbase的row key。能够指定一个字段作为row key。或者指定组合行键。当指定组合行键时,用双引號包括多个字段,各字段用逗号分隔
-D sqoop.hbase.add.row.key :是否将rowkey相关字段写入列族中,默觉得false,默认情况下你将在列族中看不到不论什么row key中的字段。

注意。该參数必须放在import之后。




注意几个坑:
1.Oracle的表名必须大写(--table CMS_NEWS_0625) 。
2.用户名必须大写字母( --username ZHAOBIAO);
3.组合行键參数中的字段名都必须大写(--hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE");
4.作为组合行键的几个字段都不能有null值,否则会报错,请运行该语句前先确认;
5.sqoop不会导入值为null的字段。

异常解决
过程中遇到报错:
Error: java.io.IOException: Could not insert row with null value for row-key column: OPERATE_TIME
        at org.apache.sqoop.hbase.ToStringPutTransformer.getPutCommand(ToStringPutTransformer.java:125)
        at org.apache.sqoop.hbase.HBasePutProcessor.accept(HBasePutProcessor.java:142)
        at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:128)
        at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:92)
        at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:634)
        at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)
        at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)
        at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:38)
        at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:31)
        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
        at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)
        at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
        at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)

原因1:
--hbase-row-key "create_time,publish_time,operate_time,title"
字段名小写了,须要将其改动为大写
--hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"

原因2:
该字段在原表中的确存在Null值。


补充:
        Map-Reduce Framework
                Map input records=639529
                Map output records=639529

166251 row(s) in 1006.7010 seconds




最新文章

  1. *CF2.D(哥德巴赫猜想)
  2. 国内外从事CV相关的企业
  3. 安装 Open Live Writer
  4. IT技术团队管理-总结
  5. C# Community Projects
  6. Java-20个非常有用的程序片段
  7. [POJ] 2785 4 Values whose Sum is 0(双向搜索)
  8. vue 基础-->进阶 教程(2): 指令、组件
  9. WPF ListBox数据绑定
  10. CAS 4.0 单点登录教程
  11. springbooot2 thymeleaf 配置以及加载资源文件。Cannot find template location: classpath:/templates/ (please add some templates or check your Thymeleaf configuration)
  12. ant 安装 网址
  13. jQuery 自执行函数
  14. Linux 入侵检测小结
  15. python实现简单登陆流程
  16. java的输入输出
  17. WebUploader 手机端上传图片(转)
  18. Chrome 的 Material Design Refresh UI初探
  19. EOS开发基础之六:使用cleos命令行客户端操作EOS——智能合约之eosio.msig和eosio.system
  20. Ajax学习整理笔记

热门文章

  1. 点击了一个link button,查看后台调用
  2. oracle手工生成AWR报告方法
  3. 常见DDOS攻击原理和防御
  4. centos7安装mysql(转载)
  5. 13. Roman to Integer[E]罗马数字转整数
  6. marge into操作
  7. SQL Server 计算汉字笔画函数
  8. line-height与间距总总
  9. UWP Control Toolkit Collections 求UWP工作
  10. idea报错:Please, configure Web Facet first!