介绍 在 Hudi 0.10 中,我们引入了对高级数据布局优化技术的支持,例如 Z-order和希尔伯特空间填充曲线(作为新的聚类算法),即使在经常使用过滤器查询大表的复杂场景中,也可以在多个列而非单个列上进行数据跳过. 但实际上什么是Data Skipping数据跳过? 随着存储在数据湖中的数据规模越来越大,数据跳过作为一种技术越来越受欢迎. 数据跳过本质上是各种类型索引的通用术语,使查询引擎能够有效地跳过数据,这与它当前执行的查询无关,以减少扫描和处理的数据量,节省扫描的数据量以及( 潜在地