hadoop之 HDFS-Hadoop存档
2024-09-27 22:46:14
- 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中
- Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件存入HDFS块,在减少内存使用的同时,允许对文件进行透明地访问
- Hadoop存档文件可以用作MapReduce的输入
使用Hadoop存档工具
- Hadoop存档是通过archive工具根据一组文件创建而来的,该存档工具运行一个MapReduce作业来并行处理所有的输入文件
- 使用archive
hadoop archive -archiveName files.har /my/files /my
- 第一个选项是存档文件的名称,这里是第一个参数 file.har
- 第二个参数是需要存档的文件
- 第三个参数是HAR文件的输出目录
- 列出HAR文件中的文件
hadoop fs -ls /my/files.har
递归列出HAR文件中的文件
hadoop fs -lsr /my/files.har
其他文件系统中引用HAR文件,则需要使用不同的URI路径格式,示例如下
hadoop fs -lsr har:///my/files.har/my/files/dir
hadoop fs -lsr har://hdfs-localhost:8020/my/files.har/my/files/dir
第二种格式仍以har方案标示一个HAR文件系统,但是用hdfs指定基础文件系统方案的权限
要删除HAR文件,需要使用递归格式进行删除,因为对于基础文件系统来说,HAR文件是一个目录
hadoop fs -rmr /my/files.har
不足
- 新建一个存档文件会创建原始文件的一个副本
- 一旦创建,不能修改
- InputFormat不知道文件已经存档
最新文章
- [调整] Firemonkey iOS 原生 Edit 透明框, 改变框色
- web开发中常用的技术体系
- 摘记 史上最强大的40多个纯CSS绘制的图形(一)
- adadmin: error while loading shared libraries: libclntsh.so.10.1
- 使用VSTS/TFS搭建iOS持续集成环境
- 使用最新的“huihui中文语音库”实现文本转语音功能
- 滴滴DSRC抢楼大赛,十一快车券飞起来
- 开源软件架构总结之——Bash(readline做输入交互式,词法语法分析,进程交互)
- OpenStack的Resize和冷迁移代码解析及改进
- 《使用wxWidgets进行跨平台程序开发》chap02——一个简单的应用程序
- C#图像处理(5):无损保存图片
- ABP 学习汇总
- 0323-DOM基础操作
- Python函数之匿名函数
- 10种JavaScript开发者必备的VS Code插件
- shell脚本调用C语言之字符串切分函数——strtok
- Slitaz 中文定制手册
- virtualbox 安装 USB 扩展功能
- Android服务Service具体解释(作用,生命周期,AIDL)系列文章-为什么须要服务呢?
- 判断浏览器环境(QQ,微信,安卓设备,IOS设备,PC微信环境,移动设备)