近期,散仙用了几周的Pig来处理分析我们站点搜索的日志数据,感觉用起来非常不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能非常少有人知道Pig是干啥的。包含一些是搞编程的,但不是搞大数据的。还包含一些既不是搞编程的。也不是搞大数据的。而是从事其它行业的朋友。所以非常有可能望文生义。一看标题,就乐了,心里就開始默默的翻译了===》
Apache 猪的笔记,看起来Apache的猪,比較厉害啊,都能写笔记了。 



开个玩笑,以下进入正题,散仙,尽量写的通俗易懂。让大家看了之后都可以理解这头Pig究竟是干什么的。 



Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护。Pig是一个基于 Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口。这一点和FaceBook开源的Hive(一个以SQL方式,操作hadoop的一个开源框架)一样简洁,清晰,易上手! 



那么雅虎公司主要使用Pig来干什么呢? 



1)吸收和分析用户的行为日志数据(点击流分析、搜索内容分析等),改进匹配和排名算法。以提高检索和广告业务的质量。

2)构建和更新search index。

对于web-crawler抓取了的内容是一个流数据的形式,这包含去冗余、链接分析、内容分类、基于点击次数的受欢迎程度计算(PageRank)、最后建立倒排表。

3)处理半结构化数据订阅(data seeds)服务。包含:deduplcaitin(去冗余)。geographic location resolution,以及 named entity recognition. 



使用Pig来操作hadoop处理海量数据,是非常easy的。假设没有Pig。我们就得手写MapReduce代码。这但是一件非常繁琐的事。由于MapReduce的任务职责非常明白,清洗数据得一个job,处理得一个job,过滤得一个job。统计得一个job,排序得一个job,编写DAG(带先后顺序依赖的)作业非常不方便。这还能够接受,但是每次仅仅要修改非常小的一个地方,就得又一次编译整个job。然后打成jar提交到Hadoop集群上执行,是非常繁琐的,调试还非常困难,所以。在如今的大互联网公司或者是电商公司里,非常少有纯写MapReduce来处理各种任务的,基本上都会使用一些工具或开源框架来操作。 





随着,数据海啸的来临,传统的DB(Oracle、DB2)已经不能满足海量数据处理的需求。MapReduce逐渐成为了数据处理的事实标准,被应用到各行各业中。所以,我们不再期望全部的客户都能高速开发应用相关代码。仅仅能把客户的工作变得简单,就像使用SQL语言,经过简单培训就能够“云”上操作。

Pig就是为了屏蔽MapReduce开发的繁琐细节,为用户提供Pig Latin这样近SQL语言处理能力,让用户能够更方便地处理海量数据。Pig将SQL语句翻译成MR的作业的集合,并通过数据流的方式将其组合起来。 



Pig的一个简单处理流程,例如以下所看到的: 



 

运行引擎例如以下所看到的: 

 



在Pig里面,每一步操作,都是一个数据流,很easy理解,你想要什么。它就能得到什么,即使不能得到,我们也能够通过轻松扩展UDF来实现,比SQL更easy理解,每一步要做什么,很easy上手和学习,在大数据时代,了解和使用Pig来分析海量数据是很easy的。 



最后告诉大家一个好消息。在最新的Pig(0.14)发行版里,有两个重要的特性: 

(1)支持Pig执行在Tez上 

(2)支持Orc格式的存储

最新文章

  1. C# 通过Selecnuim WebDriver操作非IE浏览器
  2. 手把手原生js简单轮播图
  3. java的if else语句入门
  4. Google protocol buffer在windows下的编译
  5. 查看linux版本号的几种方法
  6. 14.2.5.7 Physical Row Structure 物理数据结构:
  7. 我的MYSQL学习心得(七)
  8. get请求与post请求之间的差异
  9. php版本的选择
  10. sql server作业实现数据同步
  11. 移动端页面点击a标签会有半透明的阴影或红色边框的bug
  12. 我的PCB电路设计(一)
  13. [Go] golang的error接口
  14. 中国省份毗邻关系JSON数据[相邻省份][所辖市级信息][行政区划]
  15. windows硬盘优化篇
  16. 腾讯地图打开地图选取位置 withMap
  17. nginx——优化 Nginx 站点目录
  18. 4.移植uboot-使uboot支持DM9000网卡
  19. hdu6165(拓扑排序+tarjan缩点)
  20. Android——BroadcastReceiver

热门文章

  1. DDos攻击,使用深度学习中 栈式自编码的算法
  2. B1108 [POI2007]天然气管道Gaz 贪心
  3. spring框架spring之HibernateTemplate
  4. 软件需求规范说明 (Software Requirements Specification, 简称SRS)
  5. Mysql外键的变种 三种关系
  6. SMTP协议详解
  7. BZOJ 1951 Lucas定理+CRT
  8. SQL server存储过程学习
  9. JavaWeb详细学习路线图
  10. 数据结构——栈的实现(数组、Java)