Hadoop 数据是存储在HDFS, Mapreduce 是一种计算框架,负责计算处理。

HDFS上的数据存储默认是本地节点数据一份,同一机架不同节点一份,不同机架不同节点一份。默认是存储3份

HDFS 存储元数据信息和存储位置信息,metadata。他们之间是通过文件名进行关联的。

DataNode 节点存储FsImage, editLog;NameNode 存储的是block storage

用户的请求都经过NameNode,因为它知道文件的存储位置

HDFS 小文件处理:

  小文件的处理是在数据写入HDFS之前做一个处理。

  小文件如果合并成大文件,就看不到小文件里面的内容了。只能到合并后的大文件查找。

  小文件合并成大文件的场景:日志系统需要按月或者按年查询,就可以将每天的文件按月汇总或者按年汇总。

  实现方式:可以用SequenceFile 或者MapFile

  SequenceFile:使用filename作为key,并且file contents作为value

  MapFile:MapFile是排序后的SequenceFile

  

最新文章

  1. Node.js配合node-http-proxy解决本地开发ajax跨域问题
  2. ajax局部刷新
  3. JavaScript 常用小功能
  4. XSS危害——session劫持
  5. python日常-int和float
  6. Hadoop HDFS编程 API入门系列之HdfsUtil版本2(七)
  7. Utility
  8. CodeForces 441E(Codeforces Round #252 (Div. 2))
  9. Java设计模式系列之桥接模式
  10. mongodb 数据备份,还原笔记
  11. dede 标签调用
  12. 查看SQLServer 代理作业的历史信息
  13. 理解pytorch中的softmax中的dim参数
  14. phpcms公共函数库 总结
  15. mysql常见操作语句,建表,增删改查
  16. java 封装及this 用法
  17. (12)Python异常
  18. Android的组件化和模块化
  19. win10装机重装系统
  20. java中 static,final,transient,volatile关键字的作用

热门文章

  1. Catch and Buffer
  2. Java内部类类型
  3. Dubbo 系列(07-1)集群容错 - 服务字典
  4. python-模块-包
  5. java入门之:Hello World
  6. 26-python基础-python3-global语句
  7. vue+Mint-ui实现登录注册
  8. Hibernate4教程一:入门介绍
  9. Windows 下安装 nvm 管理 nodejs 版本
  10. read -p 命令--shell 脚本