最近有一个hadoop集群上的备份需求。源文件有几百G,如果直接复制太占用磁盘空间。将文件从hadoop集群下载到本地,压缩之后再上传到hadoop则太耗时间。于是想到能否直接在HDFS文件系统上进行压缩和解压。

  经过粗略的了解,使用pig脚本可轻松的实现以上目标。

  压缩

set output.compression.enabled true;
set output.compression.codec org.apache.hadoop.io.compress.GzipCodec; uncompress = load '$uncompress';
store uncompress into '$compress';

  解压

compress = load '$compress';
set output.compression.enabled false;
store compress into '$uncompress';

最新文章

  1. August 23rd 2016 Week 35th Tuesday
  2. Android开发(二十八)——基础功能函数
  3. qwt 介绍
  4. RFID系统的选择
  5. 【PHP SDK for OpenStack/Rackspace APIs】身份验证
  6. CSS选项卡
  7. 潜水JVM
  8. 聊聊RPC及其原理
  9. TCP/IP资料整理
  10. .NET垃圾回收机制(二)
  11. 基于FPGA的视频时序生成
  12. JPQL设置自增长、只读、文本类型等的注解
  13. spring+springMVC+mybatis+maven+mysql环境搭建(一)
  14. odoo开发环境搭建(一):安装VMware Workstation
  15. EF访问数据库报“ExecuteReader 要求已打开且可用的 Connection。连接的当前状态为已关闭。”错误
  16. IOS文件系统及其相关操作(NSFileManager,NSFileHandle)
  17. .Net Core2.0基于DbContext,IActionFilter过滤器实现全局UOW,不使用TransactionScope
  18. 构造函数中的super和this的使用
  19. codeforces 300 div2 B.Pasha and Phone 容斥原理
  20. Linux上jdk安装及环境变量设置

热门文章

  1. lintcode407 加一
  2. Java进阶知识点:服务端高并发的基石 - NIO与Reactor AIO与Proactor
  3. Python3 Tkinter-Radionbutton
  4. 第四次作业之psp
  5. 安装Tensorflow过程pip安装报错:is not a supported wheel on this platform
  6. C# WebBrowser控件详解
  7. 3dContactPointAnnotationTool开发日志(十四)
  8. Python ZKPython 安装
  9. Dubbo和Spring Cloud开发框架对比
  10. C#下载网页