ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。
市面上常用的ETL工具有很多,比如Sqoop,DataX,Kettle,Talend等,作为一个大数据工程师,我们最好要掌握其中的2~3种,这里我们要学习的ETL工具是Kettle!

Kettle是什么?

Kettle是一款ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。

Kettle的两种设计

Kettle的核心组件

Kettle的特点是什么

免费开源 — 基于java的免费开源的软件,对商业用户也没有限制

易配置 — 可以在Windows、Linux、Unix上运行,绿色无需安装。数据抽取高效稳定

不同数据库 — ETL工具集,它允许你管理来自不同数据库的数据

两种脚本文件 — transformatian和job,transformatian完成针对数据的基础转换,job则完成整个工作流的控制

定时功能 — 在Job下的start模块,有一个定时功能,可以每日,每周等方式进行定时

Kettle安装部署

  1. 安装jdk,版本建议1.8及以上
  2. 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可
  3. 双击Spoon.bat,启动图形化界面工具,就可以直接使用了

Kettle软件下载

点这里立即下载Kettle8.2

最新文章

  1. 浅谈SQL Server中的三种物理连接操作
  2. js json 特定条件删除 增加 遍历
  3. 处理海量数据的高级排序之——希尔排序(C++)
  4. CSS3初学篇章_3(属性选择符/字体样式/元素样式)
  5. git分享(一)git clone
  6. 10Spring_AOP编程(传统编程)
  7. 68.vivado与modelsim的关联以及器件库编译
  8. CSS 的命名和书写
  9. 《JavaScript高级程序设计》读书笔记 ---Array 类型
  10. LeetCode---------Longest Substring Without Repeating Characters解法
  11. HTTP协议扫盲(六)InputStream的复用
  12. Python爬虫入门教程 47-100 mitmproxy安装与安卓模拟器的配合使用-手机APP爬虫部分
  13. Java-IO流之输入输出流基础示例
  14. 原生JS动态添加和删除类
  15. 152. Maximum Product Subarray 以及 讨论【最大连续子序列】
  16. css 控制文字超出部分显示省略号
  17. java_Arrays.sort()方法
  18. Subversion1.8源码安装流程
  19. eclipse mars 4.5.1 自定义工具栏
  20. struts2 动态Action

热门文章

  1. 剑指 Offer 34. 二叉树中和为某一值的路径(java解题)
  2. jquery(二:jquery的DOM操作)
  3. WinUI 剪裁发布中的一个小坑
  4. Cesium用wsad进行场景漫游(九)
  5. 有趣的python库-MyQR
  6. CPU AMX 详解
  7. Oracle中表字段加中文注释,应该怎么写呢?
  8. 实现 JSON 高亮
  9. curl命令查用操作
  10. 让CSS flex布局最后一行列表左对齐的N种方法