下载Pig 能够执行在Hadoop 0.20.*

http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz

也能够依据你的Hadoop版本号选择相应的版本号下载:http://hadoop.apache.org/pig/releases.html

我当前的Hadoop 版本号是 hadoop-0.20.2 

tar -xvf pig-0.11.1.tar.gz

为了方便,能够把Pig的程序文件夹放到命令行路径里。比方:

% export PIG_INSTALL=/usr/local/hadoop/pig-0.11.1

% export PATH=$PATH:$PIG_INSTALL/bin

Pig有两种模式:

一种是Local mode,也就是本地模式,这样的模式下Pig执行在一个JVM里,訪问的是本地的文件系统。仅仅适合于小规模数据集,通常是用来体验Pig。

并且,它并没实用到Hadoop的Local runner,Pig把查询转换为物理的Plan,然后自己去执行。

在终端下输入

% pig -x local

就能够进入Local模式了。

另一种就是Hadoop模式了,这样的模式下。Pig才真正的把查询转换为相应的MapReduce Jobs,并提交到Hadoop集群去执行。集群能够是真实的分布式也能够是伪分布式。要想Pig能认识Hadoop。你要告诉它Hadoop的版本号以及一些关键daemon的信息(也就是Namenode和Jobtracker的Address和Port)。

比方,以下这个能够同意Pig连接到不论什么Hadoop0.20.*上:

% export PIG_HADOOP_VERSION=20

接下来,你还要指明集群的Namenode和Jobtracker的所在。有两种方法,一种就是把你Hadoop的Conf地址加入到Pig的Classpath上:

% export PIG_CLASSPATH=$HADOOP_INSTALL/conf/

另一种就是在Pig文件夹的Conf文件夹(可能须要自己创建)里创建一个pig.properties文件,然后在里面加入集群的Namenode和Jobtracker的信息:

fs.default.name=hdfs://idc01-vm-test-124/

#依据您的Hadoop配置进行设置

mapred.job.tracker=idc01-vm-test-124:9000

接下来执行PIG

[root@idc01-vm-test-124 conf]# pig

2014-04-19 20:13:15,775 [main] INFO  org.apache.pig.Main - Apache Pig version 0.10.0-cdh4.1.2 (rexported) compiled Nov 01 2012, 18:38:58

2014-04-19 20:13:15,776 [main] INFO  org.apache.pig.Main - Logging error messages to: /usr/local/hadoop/pig-0.11.1/conf/pig_1397909595772.log

2014-04-19 20:13:16,009 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///

2014-04-19 20:13:16,014 [main] WARN  org.apache.hadoop.conf.Configuration - fs.default.name is deprecated. Instead, use fs.defaultFS

2014-04-19 20:13:16,227 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to map-reduce job tracker at: localhost:9016

2014-04-19 20:13:16,229 [main] WARN  org.apache.hadoop.conf.Configuration - fs.default.name is deprecated. Instead, use fs.defaultFS

grunt> 

最新文章

  1. C++写一个带参数运行的程序
  2. 理解Memcached的分布式
  3. KnockOut.js入门示例详解
  4. oracle-分页查询方案
  5. [转]centos中wget的使用方法
  6. [SAP ABAP开发技术总结]动态语句、动态程序
  7. asp.net系统过滤器、自定义过滤器
  8. c# 無彈窗调用打印机
  9. PowerShell中调用外部程序和进程操作命令例子
  10. SSAS维度设计中CustomRollupColumn的用法-自定义聚合方式
  11. PL/SQL Developer使用技巧、快捷键、存储过程调试
  12. 七牛云数据存储Demo
  13. Shiro笔记--shiroFilter权限过滤
  14. mybatis 动态sql 插入报错
  15. 2018-2019-1 20189203《Linux内核原理与分析》第三周作业
  16. npm发包注意
  17. 解决Gephi导入csv文件时提示“边表格需要一个包含节点标号‘源’和‘目标’列” 问题的两个方案
  18. MySQL基础知识——范式与事务
  19. python魔法方法-反射运算和增量运算
  20. 在Web根目录下建立testdb.php文件内容

热门文章

  1. Okhttp源码分析--基本使用流程分析
  2. Nginx一个server配置多个location
  3. MySql 时区错误
  4. ccf 201612-4 压缩编码(DP)(100)
  5. 转载:一文详解SQL解析与应用
  6. ACCESS_ONCE的作用
  7. web搜索框的制作(必应)
  8. 七十九:flask.Restful之flask-Restful标准化返回参数示例
  9. xaml中显示 “大括号左边” 文本
  10. 人性化的Requests模块(响应与编码、header处理、cookie处理、重定向与历史记录、代理设置)