1、Hadoop HAR

将众多小文件打包成一个大文件进行存储,并且打包后原来的文件仍然可以通过Map-Reduce进行操作,打包后的文件由索引和存储两大部分组成;

缺点: 一旦创建就不能修改,也不支持追加操作,还不支持文档压缩,当有新文件进来以后,需要重新打包。

2、SequeuesFile

适用于非文体格式,可作小文件容器,并可压缩;

3、CombineFileInputFormat

将多个文件合并成一个split作为输入,减少map输入与HDFS块的耦合;

4、Java代码实现,使用HDFS API;更灵活可控;

最新文章

  1. bootstrap实现嵌入的button
  2. iPad apple-touch-startup-image实现portrait和landscape
  3. Linux/Ubuntu sudo不用输入密码的方法
  4. Linux常用命令_(系统设置)
  5. LeetCode Search in Rotated Sorted Array 在旋转了的数组中查找
  6. Pomelo实现最简单的通信-egret。
  7. Perl 中级教程 第5章课后习题
  8. Matlab:拟合(1)
  9. nginx启动,重启,关闭命令
  10. intellij idea 学习
  11. webpack vue 配置
  12. SpringMVC实现JSON与前台交互
  13. CTSC2017 铁牌记
  14. hdu3652 数位dp记忆化搜索
  15. git上传本地Intellij idea 项目到码云的git仓库中
  16. Spring搭建练习遇到的坑
  17. jQuery合并同一列中相同文本的相邻单元格
  18. 【Alpha发布】网站已经正式发布!
  19. 解决audio和video在手机端无法自动播放问题
  20. python-第一类对象,闭包,迭代器

热门文章

  1. waypoint+animate元素滚动监听触发插件实现页面动画效果
  2. 中国正式发放5G牌照 详细对比中美两国5G实力
  3. gitlab升级、汉化、修改root密码
  4. 用线段树写Dijkstar
  5. Springboot构建问题集
  6. vue常用指命
  7. Ext grid单元格编辑时获取获取Ext.grid.column.Column
  8. Excel文件处理Demo
  9. 随笔:Golang 时间Time
  10. Go语言:变参函数