文件的内容例如以下所看到的:

5

45

8

876

6

45

要求最后的输出格式:

1    5

2    6

3    8

4    45

5    45

5    876

首先,这个题目是须要对文件的内容进行排序操作。我们都知道在mapper阶段是会对key进行排序的,我们就利用这个出发,把输入一行的数据转换成int,再把该int做mapper的key输出,而value的输出随便,我们这里输出1;然后在reduce阶段我们把mapper的key做为reduce的value输出,而key仅仅需定义一个全局的静态变量,每次输出自增就可以。

package cn.lmj.mapreduce;





import java.io.IOException;

import java.util.Iterator;





import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.Mapper;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reducer;

import org.apache.hadoop.mapred.Reporter;

import org.apache.hadoop.mapred.TextInputFormat;

import org.apache.hadoop.mapred.TextOutputFormat;





public class Sort

{

public static class SortMapper extends MapReduceBase implements

Mapper<Object, Text, IntWritable, IntWritable>

{

@Override

public void map(Object key, Text value,

OutputCollector<IntWritable, IntWritable> output,

Reporter reporter) throws IOException

{

String line = value.toString();

int i = Integer.parseInt(line.toString());

output.collect(new IntWritable(i), new IntWritable(1));

}

}





public static class SortReducer extends MapReduceBase implements

Reducer<IntWritable, IntWritable, IntWritable, IntWritable>

{

//必须是全局的静态变量,由于reduce的实例在开发中可能会有非常多个,必须让多个对象共享同一个变量

private static IntWritable linenum = new IntWritable(1);





@Override

public void reduce(IntWritable key, Iterator<IntWritable> values,

OutputCollector<IntWritable, IntWritable> output,

Reporter reporter) throws IOException

{

while (values.hasNext())

{

values.next();

output.collect(linenum, key);

//每次输出让linenum加1

linenum = new IntWritable(linenum.get() + 1);

}

}

}





public static void main(String[] args) throws Exception

{

JobConf conf = new JobConf(Sort.class);

conf.setJobName("cccccc");





conf.setOutputKeyClass(IntWritable.class);

conf.setOutputValueClass(IntWritable.class);





conf.setMapperClass(SortMapper.class);

//注意,这个题目不能够设置Combiner对mapper之后的数据进行预先合拼

conf.setReducerClass(SortReducer.class);





conf.setInputFormat(TextInputFormat.class);

conf.setOutputFormat(TextOutputFormat.class);





FileInputFormat.setInputPaths(conf, new Path("/zuoye/file1/"));

FileOutputFormat.setOutputPath(conf, new Path("/zuoye/file1/output"));





JobClient.runJob(conf);

}

}

最新文章

  1. Effective C++ 笔记1
  2. 对Big Table进行全表更新,导致 Replication 同步数据的过程十分缓慢
  3. WePayUI 快快尝鲜体验
  4. 如何开始DDD(完)
  5. 后缀自动机&amp;序列自动机综合
  6. HTTP真的很简单
  7. .Net分布式架构(一):Nginx实现负载均衡
  8. Uva 110 - Meta-Loopless Sorts(!循环,回溯!)
  9. Android控件之圆形Button
  10. CentOS修改主机名和网络信息
  11. 正则表达式(javascript)学习总结
  12. Subarray Sum Closest
  13. 与中国最顶尖sharepoint工程师共舞
  14. org.hibernate.AnnotationException: mappedBy reference an unknown target entity property: com.entity.annotations.House.district in
  15. SQL Server中对存储过程的理解
  16. Hibernate 检索方式之 HQL 检索方式
  17. 【SoftwareTesting】Lab 1
  18. asp源码微信扫码授权登陆电脑版
  19. XCode - 无法对iPhone真机调试的解决方法!
  20. js判断输入是否为数字的具体实例

热门文章

  1. 使用函数指针和多态代替冗长的if-else或者switch-case
  2. mvc action 有多种跳转
  3. 【PostgreSQL】PostgreSQL语法
  4. PHP开发学习门户改版效果图投票
  5. FZU2176(二维线段树+dfs)
  6. hello MemSQL 入门安装演示样例
  7. 【译】ASP.NET MVC 5 教程 - 4:添加模型
  8. linux编程进阶书推荐APUE,UNP
  9. hdu3899(树形dp)
  10. ASP.NET 联想控件(Autocomplete)测试可用 ascx