(PS:这是很早以前在CSDN上发过的,那个账号不想用了,所以搬过来)

就在前一段时间,因为公司需要突然被老大告知要用一个ETL工具,第一次知道这么个工具,完全不知道是做什么的。大概问了一下,说是一种数据转化工具。这就开始了:

1.了解什么是ETL:百度百科ETL

2.查找合适的ETL工具:支持Oracle、MySQL、开源,于是我遇到了KETTLE;

3.开始了解KETTLE,(连接为KETTLE的开源社区网)

4.下载KETTLE(PS:同样都是要学习,所以我选择了目前最新的版本:pdi-ce-6.0.1.0-386,一般新的版本网上的资料可能会比较少,但通常都可以学习参考)

5.开始找学习文档和资料,比较官方的文档我是没有找到(如果谁有请发我一份),网上的博客倒是不少大多数是4版本的,虽然有一些转载的人不对其测试,原创的人写的不够详细当然也有详细的,但总归还是谢谢他们的分享精神让我对其有了大概的了解。(PS:对于那些我就不贴连接了,网上铺天盖地的博客)。

以上基本全是网上的东西,作为KETTLE工具新手的我,大概说说我的理解和学习的过程(有误请谅解):

KETTLE,一个抽取+转换+加载的工具,用JAVA开发,因此运行也需要JAVA的环境。

我把这个工具大体上分为了六块内容:资源库、数据抽取、映射转换、数据写入、调度、增量处理。

资源库:主要是KETTLE存储基本自身文件的地方,如我们连接数据库、自己写的转换等文件。KETTLE自身支持两种方式的存储:数据库资源库和文件资源库,还有一种Pentaho资源库,需要Pentaho的插件。

数据抽取:数据源。

映射转换:个人觉得是最核心的东西,这部分是处理真实业务的关键所在。

数据写入:输出源。

调度:大体上有两种方式,操作系统调度和Pentaho BI Server,网上还有很多的比如WEB调度之类的。

增量处理:主要是四种思路,时间戳方式、快照方式、触发器方式、日志方式。

以上是我个人对于KETTLE的学习的分法,我也是按照这六块内容学习的,文言之处还望包含。

最新文章

  1. SSHE框架整合(增删改查)
  2. PythonS12-day4学习笔记
  3. VIM使用(二) 浏览内核源代码
  4. weblogic部署项目包,报空指针错误
  5. POJ2676Sudoku(类似于八皇后)
  6. C# 控制连接超时
  7. ExtJS4.2学习(12)基于表格的右键菜单(转)
  8. linux x64下编译libjpeg,libpng,zlib
  9. [原译]在mongoose中对Array Schema进行增删改
  10. hiho-1015- KMP算法
  11. LNMP安装Let’s Encrypt 免费SSL证书方法:自动安装与手动配置Nginx
  12. 原型模式 prototype 创建型 设计模式(七)
  13. IO文件流
  14. python作业高级FTP
  15. 最短路径问题 HDU3790 (dijkstra)
  16. 关于GridControl--gridview的下拉框列(下拉列表列)
  17. 修改oracle默认监听端口
  18. Docker容器学习与分享03
  19. #import同@class之间的区别
  20. 使用ubuntu desktop是可能会用到的配置

热门文章

  1. android——屏幕适配
  2. HTTPS原理以及流程
  3. delete释放空间时出错的原因
  4. Comet OJ - Contest #3 B -棋盘 (思维+分类讨论)
  5. pull request的使用
  6. 用设计模式来替代if-else
  7. 完美解决linux不能编辑sshd_cofig和实现xshell远程连接的问题
  8. vue.js动态表格增删改代码
  9. [洛谷3934]P3934 Nephren Ruq Insania题解
  10. 【bzoj3162】独钓寒江雪