ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。

Kattle介绍

用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据。Kettle也叫 PDI,在2006年 Kettle 加入了开源的 BI 组织 Pentaho, 正式命名为PDI,英文全称为Pentaho Data Integeration。这个工具也正如我们中文翻译为水壶那样,它希望把所有需要的数据放到一个水壶里,然后以流的方式流出来。

下载安装

下载Kattle:https://community.hitachivantara.com/docs/DOC-1009855

安装使用kattle需要java环境,java环境配置,参考网文(kettle 7.X需要运行java 1.8或者更高版本)

解压安装包到安装目录,进入目录,运行

Spoon.bat :Windows

Spoon.sh:在 Linux、Apple OSX、Solaris 平台运行 Spoon。

工具介绍

kettle可以创建两种脚本文件,一种是transformation(*.ktr),就是任务,比如抽取数据,合并修改后再存入数据库什么的。 另一种是job(*.kjb),就是用来调用transformation的,类似oracle里的job调用存储过程。如下面的图分别是transformation脚本和job脚本。

最新文章

  1. leetcode72. Edit Distance(编辑距离)
  2. crm2011 使用SOAP 查询单个记录 Retrieve
  3. web前端基础篇①
  4. Servlet调用过程整理
  5. Java 进程占用 VIRT 虚拟内存超高的问题研究
  6. 151. Reverse Words in a String
  7. 产生文件命令touch,echo,cat<<EOF>test,less,more,tail,head
  8. VB execl文件后台代码,基础语法
  9. 数据结构录 之 BST的高级应用。
  10. Weex的环境搭建以及集成到Android项目
  11. centos中NAT模式下静态IP连接外网
  12. 201521123084 《Java程序设计》第5周学习总结
  13. BottomNavigationBarItem fixed
  14. 2018-2019-2 20165313 《网络对抗技术》 Exp5:MSF基础应用
  15. Ubuntu apt-get彻底卸载软件包【转】
  16. Spring+SpringMVC+mybatis整合以及注解的使用(三)
  17. rabbitmq 二进制安装
  18. ssh 中 远程文件传输
  19. (字符串处理)Fang Fang -- hdu -- 5455 (2015 ACM/ICPC Asia Regional Shenyang Online)
  20. U-Mail邮件群发触发器功能助力营销自动化

热门文章

  1. 矢量切片应用中geoserver与geowebcache分布式部署方案
  2. react-router踩坑
  3. useradd -帐号建立或更新新使用者的资讯
  4. JS window对象 计时器setTimeout() setTimeout()计时器,在载入后延迟指定时间后,去执行一次表达式,仅执行一次。 语法: setTimeout(代码,延迟时间);
  5. 4.Struts2中Action的三种访问方式
  6. Jmeter-【beanshell处理器】-获取时间
  7. js条件语句,用if...else if....else方程ax2+bx+c=0一元二次方程。求根
  8. docker网络原理
  9. hexo中加入点击出现小红心的特效会导致无法双击选中和连续点击三次选中一整行的操作
  10. nginx分布式实例入门操作