一、入门

1、常用端口号

2.x

50070:查看HDFS Web-UI

8088:查看MapReduce运行情况

19888:历史服务器

9000:hdfs客户端访问集群

50090:SecondaryNameNode

3.x:

50070-->9870

9000-->8020

3、Hadoop的8个配置文件(-site.xml、sh)

4个组成模块(common、hdfs、yarn、MapReduce)

common-site.xml   hdfs-site.xml   yarn-site.xml  mapred-site.xml

hadoop-env.sh    yarn-env.sh    mapred-env.sh    slaves(不能有空行、不能有空格)

二、HDFS

1、HDFS的读写流程(笔试题)

Client-->NameNode(元数据)-->DataNode

https://www.cnblogs.com/laowangc/p/8949850.html

2、HDFS的小文件问题

1)小文件过多会带来哪些问题(会产生哪些影响)

  • NameNode内存:一个文件块占用namenode的内存大小为150个字节

(压缩前:一亿个小文件,就是一亿个*150个字节)

(压缩后:压缩成一个文件,即1*150字节)

(压缩方式:har归档到一个文件内《用的比较多》、自定义InputFormat,把数据放置sequenceFile中取)

【128G的nameNode能存储多少个文件块?==》128G/150字节=128*1024*1024*1024(byte)/150≈9亿】

  • 影响分片==>影响Map Tsak的个数

(默认一个文件一个切片)

(方式1:企业采用har归档,将小文件归档,或自定义InputFormat,把数据放入sequenceFile内部)

(方式2:采用CombineInputFormat先对文件聚合,聚合后再对文件切片)

  • 进程负载过高

解决:采用JVM重用

开始-执行任务-结束-开始-执行任务-结束==》开始-执行任务-执行任务-执行任务-执行任务-结束

如果没有小文件场景,就不要开启小文件,不然会锁死线程

(配置文件set JVM=true)

三、MapReduce

四、Yarn

最新文章

  1. Thinkphp文件上传
  2. 图像预处理第9步:存为.bmp文件
  3. Apache伪静态在网站目录没有反斜杠后自动添加反斜杠
  4. c++模板使用出错情况error LNK2019: unresolved external symbol "public: float __thiscall Compare<float>::min(void)" (?min@?$Compare@M@@QAEMXZ) referenced in function _main
  5. iOS七大手势识别
  6. Winform调用百度地图接口
  7. Orchard中文学习视频录制完成
  8. iOS开发——UI篇OC篇&初始化图片方式
  9. 详解 Objective-C 中的 Runtime
  10. jsp文件中的alert等等
  11. CLR via C#可空值类型
  12. REMOTE HOST IDENTIFICATION HAS CHANGED
  13. HDU_2058——等差数列,子集,集合长度判断
  14. python的reduce()函数
  15. [转]lftp的致命错误:证书验证:不信任
  16. Ctrl-A全选
  17. angular-ui-bootstrap插件API - Pager
  18. php引入文件(include 和require的区别)
  19. redis优化
  20. SQL Fundamentals: 子查询 || 分析函数(PARTITION BY,ORDER BY, WINDOWING)

热门文章

  1. Elasticsearch : alias数据类型
  2. 第五章:Admin管理后台 - 2:自定义Admin actions
  3. 2_Git
  4. C#高级特性(反射)
  5. 洛谷P2866 [USACO06NOV]Bad Hair Day S (单调栈)
  6. 洛谷P1950 长方形(单调栈)
  7. Python地图栅格化实例
  8. 通过QQ抓IP查询地址
  9. 银行ATM存取款系统(C语言实现)
  10. 中国制霸生成器「GitHub 热点速览 v.22.42」