MapReduce01
2024-08-31 01:19:28
================== Hadoop内核 | MapReduce(分布式计算框架) ==================
源于Google的MapReduce论文 ---------->
√发表于2004年12月
√Hadoop MapReduce是Google MapReduce克隆版
MapReduce特点 ---------->
√良好的扩展性
√高容错性
√适合PB级以上海量数据的离线处理
===================== WordCount问题 =====================
场景:有大量文件,里面存储了单词,且一个单词占一行
任务:如何统计每个单词出现的次数?
类似应用场景:
√搜索引擎中,统计最流行的K个搜索词
√统计搜索词频率,帮助优化搜索词提示
Case 1:整个文件可以加载到内存中;
√sort datafile | uniq -c
Case 2:文件太大不能加载到内存中,但<word,count>可以存放到内存中;
Case 3:文件太大无法加载到内存中,且 <word,count>也不行
将问题范化为:有一批文件(规模为TB级或 者 PB级),如何统计这些文件中所有单词出 现的次数;
方案:首先,分别统计每个文件中单词出现 次数,然后累加不同文件中同一个单词出现 次数;
典型的MapReduce过程。
Worcount问题—MR解决过程
最新文章
- 用scikit-learn学习谱聚类
- js 动态添加行,删除行,并获得select中值赋予 input
- error-2016-4-20
- JavaScript选项卡/页签/Tab的实现
- dedecms删除没有文章的标签
- nginx 添加perl
- Level2行情和传统行情的区别
- 实现Linux select IO复用C/S服务器代码
- Jenkins 快速搭建持续集成环境
- 基于Visual C++2013拆解世界五百强面试题--题1-定义各种类型指针
- TCP三次握手与四次分手
- 用尽洪荒之力学习Flask源码
- php分页数据最后一页继续追加第一页数据
- 第二章,循环结构,输入输出,clock
- linux 下查看c 函数帮助
- 了解下webpack的几个命令
- Atitti html5 h5 新特性attilax总结
- CentOS下mysql安装
- Jupyter Notebook Tutorial: Introduction, Setup, and Walkthrough
- linux下如何退出tmux和重新进入tmux
热门文章
- Java学习4_一些基础4_输入输出_16.5.7
- Xcode 6 Beta 高速官方下载地址
- java Object类中方法介绍
- /etc/updatedb.conf配置文件
- 数组--P1980 计数问题
- 「 poj 2096 」 Collecting Bugs
- 安迪的第一个字典(Andy&#39;s First Dictionary,Uva 10815)
- openpyxl操作excel文件
- L2-014. 列车调度(带图详解)
- 根据判断数组不为空然后取他的值----数组不会为空---只能判断其size是否大于0