Hadoop 基础知识
2024-10-07 20:32:05
Hadoop 数据是存储在HDFS, Mapreduce 是一种计算框架,负责计算处理。
HDFS上的数据存储默认是本地节点数据一份,同一机架不同节点一份,不同机架不同节点一份。默认是存储3份
HDFS 存储元数据信息和存储位置信息,metadata。他们之间是通过文件名进行关联的。
DataNode 节点存储FsImage, editLog;NameNode 存储的是block storage
用户的请求都经过NameNode,因为它知道文件的存储位置
HDFS 小文件处理:
小文件的处理是在数据写入HDFS之前做一个处理。
小文件如果合并成大文件,就看不到小文件里面的内容了。只能到合并后的大文件查找。
小文件合并成大文件的场景:日志系统需要按月或者按年查询,就可以将每天的文件按月汇总或者按年汇总。
实现方式:可以用SequenceFile 或者MapFile
SequenceFile:使用filename作为key,并且file contents作为value
MapFile:MapFile是排序后的SequenceFile
最新文章
- Node.js配合node-http-proxy解决本地开发ajax跨域问题
- ajax局部刷新
- JavaScript 常用小功能
- XSS危害——session劫持
- python日常-int和float
- Hadoop HDFS编程 API入门系列之HdfsUtil版本2(七)
- Utility
- CodeForces 441E(Codeforces Round #252 (Div. 2))
- Java设计模式系列之桥接模式
- mongodb 数据备份,还原笔记
- dede 标签调用
- 查看SQLServer 代理作业的历史信息
- 理解pytorch中的softmax中的dim参数
- phpcms公共函数库 总结
- mysql常见操作语句,建表,增删改查
- java 封装及this 用法
- (12)Python异常
- Android的组件化和模块化
- win10装机重装系统
- java中 static,final,transient,volatile关键字的作用