本文转载自: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html

最近由于项目需要,对Apache Sqoop和Taobao DataX工具进行了调研,这里是对二者功能的初步梳理,不会涉及技术细节和使用方法,留作日后选型参考。

Sqoop是Apache下的顶级项目,用来将Hadoop和关系型数据库中的数据相互转移,可以将一个关系型数据库(例如:MySQL,Oracle,PostgreSQL等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。目前在各个公司应用广泛,且发展前景比较乐观。其特点在于:

1)专门为Hadoop而生,随Hadoop版本更新支持程度好,且原本即是从CDH版本孵化出来的开源项目,支持CDH4应该没问题。

2)支持并行导入,宣称速度很快(由于时间紧,未来得及进行真实环境的测试),可以指定按某个字段进行拆分并行化导入过程。

3)支持按字段进行导入与导出。

4)自带的辅助工具比较丰富,如sqoop-import、sqoop-list-databases、sqoop-list-tables等。

DataX是淘宝开源的数据导入导出的工具,支持HDFS集群与各种关系型数据库之间的数据交换。其特点在于:

1)官方版本支持的Hadoop版本较低(0.19),暂不支持高版本(如CDH4)。

2)支持从一个HDFS集群到另一个HDFS集群之间的数据导入导出。

3)支持数据不落地的并行导入导出。

注:以上并非是对这两个工具很全面的对比分析,仅供参考,欢迎拍砖。

最新文章

  1. 使用Ajax上传图片到服务器(不刷新页面)
  2. 2分钟 windows下sublime text 3安装git插件:
  3. JS高级程序设计2nd部分知识要点4
  4. javascript_获取iframe框架中元素节点的属性值
  5. 57.DDR3的系统时钟编译错误
  6. clistctrl 虚拟列表
  7. CentOS 7安装Docker
  8. 玩转JS系列之代码加载篇
  9. JVM组成
  10. Jmeter、Postman 、 loadrunner SoapUI 接口测试工具
  11. 阿里云 ACP 考试学习过程分享
  12. CSS3实现Loading动画特效
  13. Nancy 返回值详解
  14. sql语句常用功能(null值转换为0)
  15. [转]github详细教程
  16. Python文件读写及网站显示
  17. mybatis 对象关系映射例子
  18. Oracle体系结构之Oracle静态监听配置模板
  19. Anaconda 入门详解
  20. C++持有Object-C对象时容易内存泄露

热门文章

  1. Python字符串拼接的6种方法
  2. es分页搜索
  3. InnoDB log file 设置多大合适?
  4. MongoDB与关系型数据库 区别
  5. dedecms站内搜索页面调用最新文章
  6. c#4.0 Task.Factory.StartNew 用法
  7. 我的DIY作品
  8. 导出mysql数据库数据
  9. golang 删除用go get 安装的package
  10. word2vec 评测 size_diff