• 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中
  • Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件存入HDFS块,在减少内存使用的同时,允许对文件进行透明地访问
  • Hadoop存档文件可以用作MapReduce的输入

使用Hadoop存档工具

  • Hadoop存档是通过archive工具根据一组文件创建而来的,该存档工具运行一个MapReduce作业来并行处理所有的输入文件
  • 使用archive

hadoop archive -archiveName files.har /my/files /my

  • 第一个选项是存档文件的名称,这里是第一个参数 file.har
  • 第二个参数是需要存档的文件
  • 第三个参数是HAR文件的输出目录
  • 列出HAR文件中的文件

hadoop fs -ls /my/files.har

  • 递归列出HAR文件中的文件

    hadoop fs -lsr /my/files.har

  • 其他文件系统中引用HAR文件,则需要使用不同的URI路径格式,示例如下

  hadoop fs -lsr har:///my/files.har/my/files/dir
hadoop fs -lsr har://hdfs-localhost:8020/my/files.har/my/files/dir

第二种格式仍以har方案标示一个HAR文件系统,但是用hdfs指定基础文件系统方案的权限

  • 要删除HAR文件,需要使用递归格式进行删除,因为对于基础文件系统来说,HAR文件是一个目录

    hadoop fs -rmr /my/files.har

不足

  • 新建一个存档文件会创建原始文件的一个副本
  • 一旦创建,不能修改
  • InputFormat不知道文件已经存档

最新文章

  1. [调整] Firemonkey iOS 原生 Edit 透明框, 改变框色
  2. web开发中常用的技术体系
  3. 摘记 史上最强大的40多个纯CSS绘制的图形(一)
  4. adadmin: error while loading shared libraries: libclntsh.so.10.1
  5. 使用VSTS/TFS搭建iOS持续集成环境
  6. 使用最新的“huihui中文语音库”实现文本转语音功能
  7. 滴滴DSRC抢楼大赛,十一快车券飞起来
  8. 开源软件架构总结之——Bash(readline做输入交互式,词法语法分析,进程交互)
  9. OpenStack的Resize和冷迁移代码解析及改进
  10. 《使用wxWidgets进行跨平台程序开发》chap02——一个简单的应用程序
  11. C#图像处理(5):无损保存图片
  12. ABP 学习汇总
  13. 0323-DOM基础操作
  14. Python函数之匿名函数
  15. 10种JavaScript开发者必备的VS Code插件
  16. shell脚本调用C语言之字符串切分函数——strtok
  17. Slitaz 中文定制手册
  18. virtualbox 安装 USB 扩展功能
  19. Android服务Service具体解释(作用,生命周期,AIDL)系列文章-为什么须要服务呢?
  20. 判断浏览器环境(QQ,微信,安卓设备,IOS设备,PC微信环境,移动设备)

热门文章

  1. Tomcat中session共享问题的简单解决办法
  2. [java]BoneCP 参数详解
  3. WKWebView的新特性与使用
  4. 【Windows】netsh动态配置端口转发
  5. 005PHP基础知识——数据类型(二)
  6. C#学习历程(九)[类的定义与声明]
  7. iOS笔记之内存泄露
  8. php-resque 简单的php消息队列
  9. Linux网络编程IPv4和IPv6的inet_addr、inet_aton、inet_pton等函数小结
  10. 概念:GNU构建系统和Autotool