================== Hadoop内核 | MapReduce(分布式计算框架) ==================

源于Google的MapReduce论文 ---------->

√发表于2004年12月

√Hadoop MapReduce是Google MapReduce克隆版

MapReduce特点 ---------->

√良好的扩展性

√高容错性

√适合PB级以上海量数据的离线处理

===================== WordCount问题 =====================

场景:有大量文件,里面存储了单词,且一个单词占一行

任务:如何统计每个单词出现的次数?

类似应用场景:

√搜索引擎中,统计最流行的K个搜索词

√统计搜索词频率,帮助优化搜索词提示

Case 1:整个文件可以加载到内存中;

√sort datafile | uniq -c

Case 2:文件太大不能加载到内存中,但<word,count>可以存放到内存中;

Case 3:文件太大无法加载到内存中,且 <word,count>也不行

将问题范化为:有一批文件(规模为TB级或 者 PB级),如何统计这些文件中所有单词出 现的次数;

方案:首先,分别统计每个文件中单词出现 次数,然后累加不同文件中同一个单词出现 次数;

典型的MapReduce过程。

Worcount问题—MR解决过程

最新文章

  1. 用scikit-learn学习谱聚类
  2. js 动态添加行,删除行,并获得select中值赋予 input
  3. error-2016-4-20
  4. JavaScript选项卡/页签/Tab的实现
  5. dedecms删除没有文章的标签
  6. nginx 添加perl
  7. Level2行情和传统行情的区别
  8. 实现Linux select IO复用C/S服务器代码
  9. Jenkins 快速搭建持续集成环境
  10. 基于Visual C++2013拆解世界五百强面试题--题1-定义各种类型指针
  11. TCP三次握手与四次分手
  12. 用尽洪荒之力学习Flask源码
  13. php分页数据最后一页继续追加第一页数据
  14. 第二章,循环结构,输入输出,clock
  15. linux 下查看c 函数帮助
  16. 了解下webpack的几个命令
  17. Atitti html5 h5 新特性attilax总结
  18. CentOS下mysql安装
  19. Jupyter Notebook Tutorial: Introduction, Setup, and Walkthrough
  20. linux下如何退出tmux和重新进入tmux

热门文章

  1. Java学习4_一些基础4_输入输出_16.5.7
  2. Xcode 6 Beta 高速官方下载地址
  3. java Object类中方法介绍
  4. /etc/updatedb.conf配置文件
  5. 数组--P1980 计数问题
  6. 「 poj 2096 」 Collecting Bugs
  7. 安迪的第一个字典(Andy&#39;s First Dictionary,Uva 10815)
  8. openpyxl操作excel文件
  9. L2-014. 列车调度(带图详解)
  10. 根据判断数组不为空然后取他的值----数组不会为空---只能判断其size是否大于0