Apache Hive

Apache Hive™ 数据仓库软件有助于读取,写入和 Management 驻留在分布式存储中并使用 SQL 语法查询的大型数据集。

Hive 构建在 Apache Hadoop™ 之上,提供以下功能:

Hive 提供标准的 SQL 功能,包括后来的SQL:2003SQL:2011SQL:2016的许多分析功能。
Hive 的 SQL 也可以通过用户定义的函数(UDF),用户定义的集合(UDAF)和用户定义的表函数(UDTF)扩展为用户代码。

没有一种必须在其中存储数据的“配置单元格式”。 Hive 带有用于逗号和制表符分隔值(CSV/TSV)文本文件,Apache Parquet **** **** ,Apache ORC **** **** 和其他格式的内置连接器。用户可以使用其他格式的连接器扩展 Hive。有关详细信息,请参见Developer Guide中的File FormatsHive SerDe

Hive 不适用于联机事务处理(OLTP)工作负载。最好用于传统的数据仓库任务。

Hive 旨在最大化可扩展性(通过向 Hadoop 集群动态添加更多计算机来横向扩展),性能,可扩展性,容错以及与 Importing 格式的松散耦合。

Hive 的组件包括 HCatalog 和 WebHCat。

  • HCatalog 是 Hadoop 的表和存储 Management 层,它使使用不同数据处理工具(包括 Pig 和 MapReduce)的用户能够更轻松地在网格上读写数据。

  • WebHCat 提供一项服务,可用于运行 Hadoop MapReduce(或 YARN),Pig,Hive 作业。您还可以使用 HTTP(REST 风格)接口执行 Hive 元数据操作。

Hive Documentation

下面的链接提供对 Apache Hive Wiki 文档的访问。该列表不完整,但是您可以浏览这些 Wiki 页面以查找其他文档。有关更多信息,请参见官方Hive website

有关 Hive 的一般信息

User Documentation

Administrator Documentation

HCatalog 和 WebHCat 文档

贡献者资源

配置单元版本和分支

Hive 网站的Downloads页上提供了 Hive 的最新版本。对于每个版本,页面都提供发布日期和更改日志的链接。如果要使用早期版本(或开发分支)的更改日志,请使用配置发行说明页面。

Apache Hive JIRA跟踪对 Hive 代码,文档,基础结构等的更改。每个已解决的 JIRA 问题的版本号或分支显示在问题页面顶部“详细信息”部分的“修复版本”字段中。例如,HIVE-5107的修复版本为 0.13.0.

有时,版本号在发行前会更改。发生这种情况时,原始编号可能仍会在 JIRA,Wiki 和mailing list讨论中找到。例如:

Release NumberOriginal Number
1.0.00.14.1
1.1.00.15.0
2.3.02.2.0

有关 Hive 分支的更多信息,请参见如何贡献:了解配置单元分支

  • Apache Hive,Apache Hadoop,Apache HBase,Apache HDFS,Apache,Apache Feather 徽标和 Apache Hive 项目徽标是 The Apache Software Foundation 的商标。