本文接上一篇,只写到读取日志。在平时工作当中,会遇到这种情况,而且很常见。比如:增量抽取(每隔2个小时抽取截至到上次抽取时间的记录)

本文中会用到作业,先来熟悉下作业的概念
简单地说,一个转换就是一个ETL的过程,而作业则是多个转换、作业的集合,在作业中可以对转换或作业进行调度
实际情况中,每次抽取完毕,会写入日志表,记录本次抽取时间,下次抽取会根据本次抽取的成功时间,开始获取数据进行抽取。
我们可以使用作业来完成调度任务,需要用到调度控件【start】和【成功】这两个。
【start】可以控制执行频率,控制什么时间执行,间隔多长时间执行都可以进行配置,还是比较方便的。

下面需要这5个控件来完成,我们逐一看下每个控件是怎么使用的。

1)【start】控件。
如下图,该控件可以配置定时执行时间和时间间隔,是否重复等。为了实时抽取,我们把重复给勾选上,类型选中时间间隔,以分钟计算,每60分钟执行一次作业。

2)【转换1】-获取student表的更新时间,我们点击右键,进入转换的编辑页面


点击获取student表输入控件,进入如下界面,填写相应的sql-具体的例子见附件

点击【设置变量】,将表输入的结果放入变量中。

3)【转换2】-student表作业,我们点击右键,进入转换的编辑页面,设置相应的表输入和表输出项,如下图

4)【转换3】-写同步日志,我们点击右键,进入转换的编辑页面,此处包含一个【sql脚本】,写入sql后点击保存

转换完成。

效果每次隔1个小时抽取,写入日志表。下次抽取日志表之后的数据。

欢迎关注公众号,学习kettle、数据库和开发方面的知识
获取例子源码,扫描下方二维码加关注

最新文章

  1. Node.js 常用工具 util
  2. Redis系列(三)—— 订阅/发布
  3. JavaEE基础(二十六)/网络
  4. String类的写时拷贝
  5. xcode开发的6个小技巧
  6. 向Array中添加快速排序
  7. eclipse打开一闪而过,环境安装正确
  8. U+00A0 (Non-breaking space)无法被正确压缩
  9. POJ 3261 Milk Patterns(后缀数组+二分答案+离散化)
  10. SE 2014年4月12日
  11. How to sort the dictionary by the value field
  12. maven使用阿里代理下载
  13. Codeforces Round #439 (Div. 2) C DP(图论)
  14. Linux部分常用命令整理
  15. Java开发笔记(二十五)方法的输入参数
  16. 解决Nginx出现403 forbidden (13: Permission denied)报错的四种方法
  17. .Net可扩展的单据编号生成器-SNF.CodeRule--SNF快速开发平台3.2
  18. 723 if while for
  19. nginx, supervisor
  20. 20145302张薇《Java程序设计》实验一报告

热门文章

  1. MSSQL 删除数据库表数据
  2. Linux-3.14.12内存管理笔记【构建内存管理框架(3)】
  3. docker 私有registry harbor安装
  4. iotop使用方法
  5. SQL注入神器———Sqlmap!
  6. C++ class外的 >> 重载,输入流,重载示例。不应该定义类内的>>重载
  7. BZOJ1391/LG4177 「CEOI2008」order 最大权闭合子图
  8. LVS 负载均衡——直接路由模式DR
  9. pytest框架之fixture前置和后置
  10. 百度API车牌识别——Restful方式