1.1.1         默认的map函数和reduce函数

(1)Maper和Reuducer默认类

如果没有指定maper类和reduce类,则会用默认的Maper和Reuducer类去处理数据。也可以显示的将处理类设置为Maper和Reducer类。默认的Maper类和reduce类是将输入原封不动的输出。Map任务的数量等于输入文件分块数。

2)默认分区类

默认的partitioner是HashPartitioner,对每条记录的键进行哈希操作,决定该记录属于哪个分区,分区值由哈希值与最大的整型值做一次按位与操作,然后进行取模操作,一个分区由一个reduce处理,所以分区数等于作业的reduce任务个数。默认只有一个分区,partitioner作用就变得无关紧要,多个分区时,散列函数足够好,会将记录均匀的分到多个reduce任务中。Reduce任务多,并行化程度高,减少时间,但是小文件会变多。Reduce任务少,处理效率低。经验是reduce任务运行5分钟左右。

自己开发了一个股票智能分析软件,功能很强大,需要的点击下面的链接获取:

https://www.cnblogs.com/bclshuai/p/11380657.html

最新文章

  1. HTML解析组件HtmlAgilityPack使用
  2. nginx服务器的网站权限问题
  3. OD使用心得
  4. 表格实现hao123
  5. SRM144 - SRM 148(少144-DIV1-LV3,147-DIV2-LV3)
  6. HDU 1194 - Beat the Spread!
  7. How to write simple HTTP proxy with Boost.Asio
  8. IE8升级新版Flash Player ActiveX14导致的discuz图片附件无法上传 解决方法
  9. [转载] Bitmap的秘密
  10. bootstrap 无需引入 直接使用
  11. android控件基本布局
  12. pgadmin连接 postgresql远程设置
  13. java验证码的制作和验证
  14. Linux记录-salt分析
  15. 用Nginx给网站做一个简单的防盗链
  16. 用FPGA对ASIC进行原型验证的过程(转)
  17. Servlet Life Cycle
  18. 安装windows后grub修复
  19. Oracle11g温习-第六章:控制文件
  20. np.frombuffer()

热门文章

  1. Cheapest Palindrome
  2. win10编译OPenBlas
  3. Eclipse使用段注释格式化代码后混乱情况解决
  4. django-cors-headers
  5. C++ 宏定义创建(销毁)单例
  6. 一些 乱码 GPU的问题
  7. mac停靠栏动画
  8. oracle 12cR2 RAC deconfig CRS过程记录
  9. layui-表格宽度自适应
  10. Yii2.0 引入外部js css