apache-hive / 3.1.1 / reference / RCFile.html

RCFile

RCFile(记录列文件)是为基于 MapReduce 的数据仓库系统设计的数据放置结构。 Hive 在版本 0.6.0 中添加了 RCFile 格式。

RCFile 将表数据存储在由二进制键/值对组成的平面文件中。它首先将行水平划分为行拆分,然后以列方式垂直划分每个行拆分。 RCFile 将行拆分的元数据存储为记录的关键部分,并将行拆分的所有数据存储为值部分。

RCFile 结合了行存储和列存储的优点,可以满足快速数据加载和查询处理,有效利用存储空间以及适应高动态工作负载模式的需求。

  • 作为行存储,RCFile 保证同一行中的数据位于同一节点中。

  • 作为列存储,RCFile 可以利用列数据压缩,并跳过不必要的列读取。

ShellUtil 可用于读取 RCFile 数据和元数据:请参见RCFileCat

有关 RCFile 格式的详细信息,请参见: