对数据进行压缩可以节约磁盘空间,提高系统吞吐量和性能,但是压缩和解压缩会增加CPU的开销。

1、hive的压缩编/解码器

  BZip2和GZip压缩率高,但是需要消耗较多的CPU开销。LZO和Snappy与前面相反。

  一般来说压缩文件是不可分割的,BZip2和LZO提供了块(block)级别的压缩,故可以在块边界对文件进行划分。

  GZip支持Hadoop但是不支持分割;snappy不支持分割,在Hadoop中需要安装。

  LZO支持分割,但是在Hadoop中需要安装;bzip2支持分割和Hadoop但是不支持native。

  在hive中开启中间数据的压缩功能可以让job中间传送的数据量变小,这是因为shuffle sort的数据被压缩了。

 相关设置:

  set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

  set hive.exec.compress.intermediate=ture  //开启中间压缩格式

  set mapred.output.compression.type=BLOCK  //块压缩

  set hive.exec.compress.output=true;

  

最新文章

  1. POCO库——Foundation组件之日期时间DateTime
  2. 拿到添加对象的id号方法
  3. Sharepoint学习笔记—习题系列--70-573习题解析 --索引目录
  4. Log4j的常见用法
  5. 设计模式之外观模式(Facade)
  6. linux内存负载分析
  7. 【动态规划】XMU 1583 Sequence
  8. PHP扩展开发(1)-创建基础框架
  9. 2.Perl基础系列之入门
  10. Java面试09|多线程
  11. RabbitMQ-从基础到实战(2)— 防止消息丢失
  12. HashMap 底层算法分析
  13. Android初级教程理论知识(第十章Fragment与动画)
  14. Tomcat的startup.bat启动后显示乱码
  15. hdu1811 拓扑排序+并查集缩点
  16. tensorflow nan
  17. English trip EM2-LP-1A Hi Teacher:Taylor
  18. GPUImage API文档之GPUImageContext类
  19. PHP header函数设置http报文头示例详解以及解决http返回头中content-length与Transfer-Encoding: chunked的问题
  20. log4j相关配置

热门文章

  1. Java WebService服务
  2. java文件转码
  3. 定义一个JobService,开启本地服务和远程服务
  4. Python 测评工具
  5. scau 1142 巡逻的士兵(分治)
  6. centos7升级kernel之后,vmware无法打开
  7. nginx用途
  8. I am going to India on a business trip
  9. Kubernetes 对象管理的三种方式
  10. Kubernetes tutorial - K8S 官方入门教程