Spark - Parquet 概述 Apache Parquet属于Hadoop生态圈的一种新型列式存储格式,既然属于Hadoop生态圈,因此也兼容大多圈内计算框架(Hadoop.Spark),另外Parquet是平台.语言无关的,这使得它的适用性很广,只要相关语言有对应支持的类库就可以随机使用: Parquet的优劣对比: 支持嵌套结构,这点对比同样是列式存储的OCR具备一定优势: 适用于OLAP场景,对比CSV等行式存储结构,列示存储支持映射下推和谓词下推,减少磁盘IO: 同样的压缩方式下