On this page
RCFile
RCFile(记录列文件)是为基于 MapReduce 的数据仓库系统设计的数据放置结构。 Hive 在版本 0.6.0 中添加了 RCFile 格式。
RCFile 将表数据存储在由二进制键/值对组成的平面文件中。它首先将行水平划分为行拆分,然后以列方式垂直划分每个行拆分。 RCFile 将行拆分的元数据存储为记录的关键部分,并将行拆分的所有数据存储为值部分。
RCFile 结合了行存储和列存储的优点,可以满足快速数据加载和查询处理,有效利用存储空间以及适应高动态工作负载模式的需求。
作为行存储,RCFile 保证同一行中的数据位于同一节点中。
作为列存储,RCFile 可以利用列数据压缩,并跳过不必要的列读取。
ShellUtil 可用于读取 RCFile 数据和元数据:请参见RCFileCat。
有关 RCFile 格式的详细信息,请参见:
RCFile.java的 Javadoc
2011 年 ICDE 会议论文“ RCFile:基于 MapReduce 的仓库系统中快速且节省空间的数据放置结构”,作者是何永强,李如宝,尹淮,郑韶,纳米特·贾恩,张晓东和徐志伟。