本演示样例说明怎样使用Pentaho MapReduce把原始web日志解析成格式化的记录。



一、向HDFS导入演示样例数据文件

将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/文件夹下(因资源有限,本演示样例仅仅取了这个文件的前10行数据)

參考:http://blog.csdn.net/wzy0623/article/details/51133760



二、建立一个用于Mapper的转换

1. 新建一个转换,如图1所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

图1

2. 编辑'MapReduce Input'步骤,如图2所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

图2

3. 编辑'Regex Evaluation'步骤,如图3所看到的。

图3

说明:

. “正則表達式”里面填写例如以下内容:

^([^\s]{7,15})\s            # client_ip
-\s # unused IDENT field
-\s # unused USER field
\[((\d{2})/(\w{3})/(\d{4}) # request date dd/MMM/yyyy
:(\d{2}):(\d{2}):(\d{2})\s([-+ ]\d{4}))\]
# request time :HH:mm:ss -0800
\s"(GET|POST)\s # HTTP verb
([^\s]*) # HTTP URI
\sHTTP/1\.[01]"\s # HTTP version (\d{3})\s # HTTP status code
(\d+)\s # bytes returned
"([^"]+)"\s # referrer field " # User agent parsing, always quoted.
"? # Sometimes if the user spoofs the user_agent, they incorrectly quote it.
( # The UA string
[^"]*? # Uninteresting bits
(?:
(? :
rv: # Beginning of the gecko engine version token
(?=[^;)]{3,15}[;)]) # ensure version string size
( # Whole gecko version
(\d{1,2}) # version_component_major
\.(\d{1,2}[^.;)]{0,8}) # version_component_minor
(? :\.(\d{1,2}[^.;)]{0,8}))? # version_component_a
(?:\.(\d{1,2}[^.;)]{0,8}))? # version_component_b
)
[^"]* # More uninteresting bits
)
|
[^"]* # More uninteresting bits
)
) # End of UA string
"? "

. “捕获组(Capture Group)字段”例如以下所看到的,全部字段都是String类型

client_ip
full_request_date
day
month
year
hour
minute
second
timezone
http_verb
uri
http_status_code
bytes_returned
referrer
user_agent
firefox_gecko_version
firefox_gecko_version_major
firefox_gecko_version_minor
firefox_gecko_version_a
firefox_gecko_version_b

4. 编辑'Filter Rows'步骤,如图4所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

图4

5. 编辑'Value Mapper'步骤。如图5所看到的。

图5

6. 编辑'User Defined Java Expression'步骤,如图6所看到的。

图6

说明:“Java Expression”列填写例如以下内容:

client_ip + '\t' + full_request_date + '\t' + day + '\t' + month + '\t' + month_num + '\t' + year + '\t' + hour + '\t' + minute + '\t' + second + '\t' + timezone + '\t' + http_verb + '\t' + uri + '\t' + http_status_code + '\t' + bytes_returned + '\t' + referrer + '\t' + user_agent

7. 编辑'MapReduce Output'步骤,如图7所看到的。

图7

将转换保存为weblog_parse_mapper.ktr



三、建立一个调用MapReduce步骤的作业,使用mapper转换,仅执行map作业

1. 新建一个作业,如图8所看到的。

图8

2. 编辑'Pentaho MapReduce'作业项。如图9到图11所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

图9

图10

图11

说明:

. 仅仅须要编辑“Mapper”、“Job Setup”和“Cluster”三个标签

. hadoop_local是已经建立好的Hadoop Clusters连接。设置如图12所看到的

图12

建立过程參考http://blog.csdn.net/wzy0623/article/details/51086821



将作业保存为weblogs_parse_mr.kjb



四、运行作业并验证输出

1. 启动hadoop集群

# 启动HDFS

$HADOOP_HOME/sbin/start-dfs.sh

# 启动yarn

$HADOOP_HOME/sbin/start-yarn.sh

# 启动historyserver

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver



2. 运行作业,日志如图13所看到的。

图13

从图13能够看到,作业已经成功运行。

3. 检查Hadoop的输出文件。结果如图14所看到的。

图14

从图14能够看到,/user/grid/parse文件夹下生成了名为part-00000和part-00001的两个输出文件。

參考:

http://wiki.pentaho.com/display/BAD/Using+Pentaho+MapReduce+to+Parse+Weblog+Data

最新文章

  1. T4 模板自动生成带注释的实体类文件 - 只需要一个 SqlSugar.dll
  2. canvas放射性渐变填充
  3. MVC中的ActionResult
  4. 谈谈Nullable<T>的类型转换问题
  5. [wikioi]二叉树最大宽度和高度
  6. VM11里安装ubuntukylin-16.04-desktop-amd64遇到问题
  7. JavaScript 高级程序设计(第3版)笔记——chapter5:引用类型(基本包装类型部分)
  8. Servlet的学习之Session(1)
  9. .NET Core跨平台的奥秘[上篇]:历史的枷锁
  10. ionic cordova build android error: commamd failed with exit code eacces
  11. (零)SQL server安装配置
  12. [我的阿里云服务器] —— WordPress Permalink Settings
  13. stm32中assert_param的用法说明
  14. php中的func_num_args、func_get_arg与func_get_args函数
  15. ajax.beginform控制器中实体为null的问题
  16. C++ 类 构造函数 constructor
  17. 数字表格(product)
  18. .NET平台机器学习资源汇总,有你想要的么?(转)
  19. jquery 实现抖动效果
  20. @requestBody注解的使用(上)

热门文章

  1. 封装一个类似jquery的ajax方法
  2. tomcat defaultServlet
  3. BZOJ【1607】轻拍牛头
  4. What and How in an Application
  5. echarts源码中关于 判断平台的有用代码
  6. C# 用实例来理解IComparable和IComparer
  7. 更新到xcode10以后出现几个无奈的问题,谨已此篇告诫广大ioser升级请慎重
  8. RabbitMq解决分布式事物
  9. 洛谷 P3359 改造异或树
  10. 【Kafka】《Kafka权威指南》——分区partition