hbase Hfile处理原因

Hile 内部的数据是按key排序好的,但Hfile之间数据并不能保证key的排序,也就是说对于新生成的Hfile,其内部的key并不都比老的Hfile的大，因此每次检索时，都需要在所有的Hfile中检索一次，再将记过合并。虽然Hbase针对HFile这个设计了各种加速机制如BloomFilter，但是Hfile文件数目一多了还是比较吃力，因此就需要对Hfile做合并操作（compaction），分为minor和major合并操作。老的下限新的上线做查询用。

1）Minor操作只用来做部分文件的合并操作以及包括minVersion=0并且设置ttl的过期版本清理，不做任何删除数据、多版本数据的清理工作。

2）Major操作是对Region下的HStore下的所有StoreFile执行合并操作，最终的结果是整理合并出一个文件。

一般情况下都是做Minor合并，Major不少集群都是禁止，然后再集群负载较小时，进行手动Major合并，在我们数据立方这边，也是配置了一个<name>datacube.hregion.majorcompaction</name><value>0</value>，这是配置major的合并周期（默认为7天），很多集群配置成一天，如果配置成0即关闭Major合并。本文重点讨论的是minor合并，因此就不在此多说Major合并，只需要注意，既然Major合并是把所有HFile都合并成一个文件，可想对集群负载不可小觑。

巴特西

hbase Hfile处理原因

最新文章

热门文章