压缩格式的设置

set mapred.output.compression=

压缩格式 工具 算法 扩展名 是否支持分割 Hadoop编码/解码器
default deflate .deflate No org.apache.hadoop.io.compress.DefaultCodec
gzip gzip deflate .gz No org.apache.hadoop.io.compress.GzipCodec
bzip2 bzip2 bzip2 .bz2 Yes org.apache.hadoop.io.compress.BZip2Codec
LZO Lzop LZO .lzo Yes(if index) org.apache.hadoop.lzo.LzoCodec
LZ4 LZ4 .lz4 No org.apache.hadoop.io.compress.Lz4Codec
Snappy Snappy .snappy No org.apache.hadoop.io.compress.SnappyCodec

案例

压缩格式压缩率

压缩格式 解压缩速度 压缩比 是否支持分片 优缺点
Snappy 解压缩速度快 压缩比低 不支持分片 支持hadoop native库;hadoop本身不支持,需要安装;linux系统下没有对应的命令
LZO 解压缩速度快 压缩比低 支持分片 需在linux系统下自行安装lzop命令,使用方便;lzo虽然支持split,但需要对lzo文件建索引,否则hadoop会把lzo文件看成一个普通文件。
GZIP 解压缩速度慢 压缩比高 不支持分片 hadoop本身支持,在应用中处理gzip格式的文件和直接处理文本一样,有hadoop native库,大部分linux系统都自带gzip命令。
BZIP2 解压缩速度慢 压缩比高 支持分片 hadoop本身支持,在linux系统下自带bzip2命令;不支持native

最新文章

  1. java MD5 32位加密
  2. 【HDU 5818多校】Joint Stacks
  3. 十分钟了解分布式计算:GraphLab
  4. bzoj4642: 泡泡
  5. 为ubuntu只带的network-manager添加latp/ipsec VPN
  6. c语言 选择排序
  7. JDBC连接池的简单实现
  8. bzoj 1566: [NOI2009]管道取珠
  9. centos7-aliyun
  10. JS中some(),every(),forEach(),map(),filter()区别
  11. 在VS2010上安装MVC4(webApi)
  12. OpenCV3.30 画图函数
  13. 【GMT43智能液晶模块】例程十二:SDIO实验——读取SD卡信息
  14. HTML页面打印
  15. java代码示例(2)
  16. 学习率设置&&训练模型之loss曲线滑动平均
  17. Oracle 修改SYS、system用户密码
  18. ios开发经常使用RGB色值
  19. elment-ui table组件 -- 远程筛选排序
  20. Android逆向进阶——让你自由自在脱壳的热身运动(dex篇)

热门文章

  1. centos安装Jenkins报错
  2. C# 生成二维码方法(QRCoder)
  3. (三)用go实现平衡二叉树
  4. 【三维重建】Ubuntu20.04进行RealSenseD435环境配置及初步使用
  5. 模拟ATM系统 —— 用户存款、取款、转账、修改密码和销户功能
  6. 【uboot 】uboot通过tftp下载内核
  7. gcc 中weak弱函数
  8. 检测到远端rexec服务正在运行中
  9. python之路5:常用模块
  10. AndroidStudio中的读取本地Gradle设置,gradle-wrapper.properties内容解释