为了掌握大数据采集技术,自学习了datax的使用

简介:

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。

首先下载datax.tar.gz

运行datax.py需要一定的要求:1.JDK(1.6以上)  2.python版本2.x(因为源代码中的语法问题,其他版本会出现运行错误)

本人安装的是python3.7,在datax.py中官方代码中的print没有加括号会导致运行时出错,我修改了源代码,加上括号之后还需要将 except Exception, e:改为 except Exception as e: 因为这是python3中的语法。

利用datax将.csv文件中的数据同步导入mysql中,首先需要配置json文件,这里可以在datax/job下,根据他提供的job.json来配置自己的json文件,配置好直接运行命令: python datax  json目录即可,  这里需要在datax/bin目录下运行此命令。

遇到的问题:即将尝试执行第1次重试.本次重试计划等待[1000]ms,实际等待[1000]ms, 异常Msg:[Code:[DBUtilErrorCode-10], Description:[连接数据库失败. 请检查您的 账号、密码、数据库名称、IP、Port或者向 DBA 寻求帮助(注意网络环境).].  -  具体错误信息为:com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Could not create connection to database server.]

因为我之前将mysql版本改为8.x ,所以需要将其连接数据库的jdbc驱动包更换(其在目录datax\plugin\reader\mysqlreader下)

乱码问题可通过输入命令 CHCP 65001解决

至此数据成功导入到数据库中。

最新文章

  1. Linux下安装Redis
  2. java.lang.NoSuchMethodError: javax.servlet.http.HttpServletRequest.isAsyncStarted()Z 的解决
  3. python求解ax² + bx + c = 0
  4. UCenter 通信失败 和 无法同步登陆的调试方法
  5. 【Apache运维基础(4)】Apache的Rewrite攻略(1)
  6. 关于Windows系统防火墙
  7. SecureCRT自动登陆到服务器的脚本以及脚本编写简单说明
  8. 研究 UIActivityViewController
  9. mono for android工具下载
  10. 【http】http的方法,状态码和组成部分
  11. 以太坊客户端Geth命令用法-参数详解
  12. 织梦在服务器上面安装的时候一直提示data文件没有权限,可我已经写了权限,还是提示
  13. Vue-admin工作整理(十五):Ajax-跨域问题
  14. python高级-异常(13)
  15. SD卡与FAT32系统学习
  16. unity3d-游戏实战突出重围,第一天
  17. stm32 外设使用的配置步骤
  18. P2043 质因子分解
  19. Python中的相对文件路径的调用
  20. R语言中的标准输入,输出, 错误流

热门文章

  1. 布尔类型:boolean
  2. Idea2020.2.3 创建JavaWeb项目(部署Tomcat)方法
  3. antd-vue 框架的日期选择选年份
  4. Excel之VLOOKUP()函数的基本用法
  5. Svn Linux 启动
  6. myJRebel 已不可用
  7. storcli64简述
  8. spring 理念与项目构建
  9. 错误提示“com.alibaba.fastjson.JSONException: exepct '[', but string, pos 4, json”解决
  10. 关于XAF中ListView慢的总结与改善