hadoop 流streaming跑python程序
2024-08-25 14:51:01
先放上命令:
hadoop jar /usr/hadoop-1.2./contrib/streaming/hadoop-streaming-1.2..jar -mapper mapper.py -file mapper.py -reduce reduce.py -file reduce.py -file params.txt -file params2.txt -input /data/* -output /output
其中output不存在才可以。
mapper.py的输出直接传给reduce.py
比如在hadoop的集群中,/data/目录下有如下几个文件:
[root@master program]# hadoop fs -ls /data/
Found items
-rw-r--r-- root supergroup -- : /data/cars-
-rw-r--r-- root supergroup -- : /data/cars-
-rw-r--r-- root supergroup -- : /data/cars-
-rw-r--r-- root supergroup -- : /data/cars-
-rw-r--r-- root supergroup -- : /data/cars-
-rw-r--r-- root supergroup -- : /data/cars-
-rw-r--r-- root supergroup -- : /data/cars-
-rw-r--r-- root supergroup -- : /data/cars-
-rw-r--r-- root supergroup -- : /data/cars-
-rw-r--r-- root supergroup -- : /data/cars-
对于任何一个文件,如果在本地可以这样完成操作即可:
cat cars- | ./mapper.py | ./reduce.py
最新文章
- 时间格式转换—将后台返回的/Date(1448954018000)/格式转换为正常的时间格式
- goprotocbuf的安装和使用
- Verilog学习笔记设计和验证篇(四)...............状态机的置位与复位
- Java读写文件通用格式
- WordPress博客搬家注意事项
- Java 并发:Executors 和线程池
- homework01
- Android添加标题进度条
- Eclipse安装Vim——viPlugin插件
- 22.Linux-块设备驱动之框架详细分析(详解)
- win7与centos虚拟机的共享文件夹创建
- 折腾Java设计模式之解释器模式
- mysql,jdbc、连接池
- Activity的介绍
- Mac os下android studio模拟器无法联网解决方法
- Entry point (0x08000000) points to a Thumb instruction but is not a valid Thumb code pointer.
- BZOJ3779 : 重组病毒
- vue2.0+element-ui(01简单点的单页面)
- class []的用法
- JAVA , TOMCAT , AXIS2 环境变量配置
热门文章
- max number of threads [1024] for user [lish] likely too low, increase to at least [2048]
- CLR via C#(12)-委托Delegate
- C#的正则表达式
- 【PHP数组的使用】
- react.js 多个组件集成示例
- 【openGL】画五角星
- 使用RMAN DUPLICATE...FROM ACTIVE DATABASE创建物理standby database
- Eclipse的详细安装步骤
- 数字信号处理实验(五)——IIR滤波器的设计
- 【SSH】 之 Struts2环境搭建及简单应用开发