@

概念

Job(作业) : 一个MapReduce程序称为一个Job。

MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程称为MRAppMaster,负责Job中执行状态的监控,容错,和RM申请资源,提交Task等。

Task(任务): Task是一个进程,负责某项计算。

Map(Map阶段):Map是MapReduce程序运行的第一个阶段,Map阶段的目的是将输入的数据,进行切分。将一个大文件,切分为若干小部分!切分后,每个部分称为1片(split),每片数据会交给一个Task(进程),Task负责Map阶段程序的计算,称为MapTask。在一个MR程序的Map阶段,会启动N(取决于切片数)个MapTask。每个MapTask是并行运行。

Reduce(Reduce阶段): Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)!Reduce阶段的目的是将Map阶段的每个MapTask计算后的结果进行合并汇总!得到最终结果!Reduce阶段是可选的,Task负责Reduce阶段程序的计算,称为ReduceTask,一个Job可以通过设置,启动N个ReduceTask,这些ReduceTask也是并行运行!每个ReduceTask最终都会产生一个结果。

MapReduce中常用的组件

Mapper:map阶段核心的处理逻辑

Reducer: reduce阶段核心的处理逻辑

InputFormat:输入格式

  • MR程序必须指定一个输入目录,一个输出目录
  • InputFormat代表输入目录中文件的格式
  • 如果是普通文件,可以使用FileInputFormat
  • 如果是SequeceFile(hadoop提供的一种文件格式),可以使用SequnceFileInputFormat
  • 如果处理的数据在数据库中,需要使用DBInputFormat

RecordReader: 记录读取器

  • RecordReader负责从输入格式中,读取数据,读取后封装为一组记录(k-v)

OutPutFormat: 输出格式

  • OutPutFormat代表MR处理后的结果,要以什么样的文件格式写出
  • 将结果写出到一个普通文件中,可以使用FileOutputFormat
  • 将结果写出到SequeceFile中,可以使用SequnceFileOutputFormat
  • 将结果写出到数据库中,可以使用DBOutPutFormat

RecordWriter: 记录写出器

  • RecordWriter将处理的结果以什么样的格式,写出到输出文件中

Partitioner: 分区器

  • 分区器,负责在Mapper将数据写出时,将keyout-valueout,为每组keyout-valueout打上标记,进行分区
  • 目的: 一个ReduceTask只会处理一个分区的数据!

最新文章

  1. MFC去掉标题栏
  2. Nginx二级域名及多Server反向代理配置
  3. -bash: /usr/local/bin/react-native: No such file or directory
  4. C# 中的多线程(转载)
  5. make file
  6. BZOJ 4004 装备购买
  7. 设置Tomcat的UTF-8编码
  8. android的Broadcast receiver
  9. SQL语句函数详解__sql聚合函数
  10. 不安装oracle客户端,如何运行sqlplus
  11. [转] Eclipse 使用 Link 方式进行插件的安装
  12. 201521123004 《Java程序设计》第3周学习总结
  13. Windows下Apache添加SSL模块
  14. hdu 2196 Computer(树形DP经典)
  15. 双11Java程序员书单推荐
  16. 获取JSON格式的树形
  17. 关于字符的C++函数
  18. Libinput 1.13 RC2发布
  19. bootstrap的css和html设计规范
  20. 快乐的Lambda表达式(一)

热门文章

  1. SQL常用取整函数
  2. selenium3.0-selenium发展史
  3. Ehcache基础入门
  4. Window下将nginx配置为开机自动启动
  5. 一文入门:XGBoost与手推二阶导
  6. 马士兵老师Java虚拟机调优
  7. QUIC/HTTP3 协议简析
  8. Shader专题:卡通着色(一)控制颜色的艺术
  9. 【博弈】HDU - 5963 朋友
  10. 51单片机入门1--与C语言的交接