ORC 全称是Optimized Row Columnar,意思是优化的RC file,优化行列式。

ORC 文件格式提供了一个很高效的方式来存储hive数据。它旨在克服其他hive文件格式的限制。当hive读取、写入和处理数据时,使用ORC文件可以提高性能。

和RCFile格式相比,ORC文件格式有很多优点,例如:

①每个任务的输出都是一个单独的文件,这减少了NameNode的负载

②hive类型支持datetime、decimal和复杂类型(struct、list、map和union)

③轻量级的索引,跳过不传递predicate filtering的行组

④基于数据类型的块模式压缩,integer列是run-length 编码,string列是dictionary 编码

⑤使用单独的RecordReaders 并发读取同一文件

⑥限制了读写所需的内存大小

⑦使用Protocol Buffers存储元数据,允许添加和删除字段

文件结构

ORC 文件包含被称为stripes 的行数据组,以及文件页脚中的辅助信息。在文件的末尾,一个postscript 保存压缩参数和压缩页脚的大小。stripe 大小默认为250MB。大的stripe 可以实现从hdfs 的高效读取。文件页脚包含文件的stripes 列表,每一个stripe 的行数以及各列的数据类型。它还包含列级的聚合,count、min、max h和sum。

最新文章

  1. Python爬虫学习(10):Selenium的好基友PhantomJS
  2. 自动解析URL
  3. map reduce filter
  4. NeHe OpenGL教程 第十二课:显示列表
  5. book publisher and study
  6. android中常用的弹出提示框
  7. android开发之调试技巧 分类: android 学习笔记 2015-07-18 21:30 140人阅读 评论(0) 收藏
  8. Date对象
  9. [转]深入浅出JSONP--解决ajax跨域问题
  10. [JNI] Java 调用 C++ dll
  11. webpack模块化管理和打包工具
  12. Oracle的rollup、cube、grouping sets函数
  13. Vue.js 基本功能了解一下~
  14. vue props的理解
  15. java学习笔记20(Arraylist复习,Collection接口方法,迭代器,增强型for循环)
  16. zabbix基础使用(以思科交换机为例)
  17. C# MemCached分布式缓存
  18. 虚拟机安装VBoxAdditions增强功能
  19. Node.js 模块之 morgan中间件记录日志
  20. nginx反向代理解决跨域问题

热门文章

  1. mysql数据库引擎MyISAM与InnoDB的区别浅说
  2. google/protobuf hello world
  3. winform 中TextBox只能输入数字
  4. ubuntu eclipse 集成pyDev
  5. SOLR企业搜索平台 三 (schema.xml配置和solrj的使用)
  6. [C#]合并单元格(行、列)
  7. table数据跑马灯效果
  8. 十八、Node.js创建Web服务器(二)
  9. LeetCode 刷题指南(1):为什么要刷题
  10. drf 三级菜单后台序列化以及数据库的设计