MapReduce 作业-POST mapreduce/jar

Description

创建并排队一个标准的Hadoop MapReduce作业。

Version: Hive 0.13.0 and later

从 Hive 0.13.0 开始，GET version/hadoop显示用于 MapReduce 作业的 Hadoop 版本。

URL

http:// * www.myserver.com * /templeton/v1/mapreduce/jar

Parameters

Name	Description	Required?	Default
jar	供 Map Reduce 使用的 jar 文件的名称。	Required	None
class	Map Reduce 使用的类的名称。	Required	None
libjars	逗号分隔的 jar 文件包含在 Classpath 中。	Optional	None
files	逗号分隔的文件将被复制到 map reduce 集群。	Optional	None
arg	设置程序参数。	Optional	None
define	使用语法`define=NAME=VALUE`设置 Hadoop 配置变量	Optional	None
statusdir	WebHCat 将在其中写入 Map Reduce 作业状态的目录。如果提供了此目录，则调用者有责任在完成后删除此目录。	Optional	None
enablelog	如果设置 statusdir 且 enablelog 为“ true”，请收集 Hadoop 作业配置并在作业完成后登录名为`$statusdir/logs`的目录。完成和失败的尝试都将被记录。 `$statusdir/logs`中子目录的布局为：
`logs/$job_id` ($ job_id 的目录) `logs/$job_id/job.xml.html` `logs/$job_id/$attempt_id` ($ attempt_id 的目录) `logs/$job_id/$attempt_id/stderr` `logs/$job_id/$attempt_id/stdout` `logs/$job_id/$attempt_id/syslog` 此参数是在 Hive 0.12.0 中引入的。 (请参见HIVE-4531。)	Hive 0.12.0 中的可选	无
callback	定义在作业完成时要调用的 URL。您可以使用`$jobId`将特定的工作 ID 嵌入此 URL。	可选	无	将在回调 URL 中用此作业的作业 ID 替换该标签。
usehcatalog	指定提交的作业使用 HCatalog，因此需要访问元存储，这需要 WebHCat 在安全集群中执行附加步骤。 (请参阅HIVE-5133。)此参数将在 Hive 0.13.0 中引入。另外，如果 webhcat-site.xml 定义了参数`templeton.hive.archive`，`templeton.hive.home`和`templeton.hcat.home`，则 WebHCat 会将 Hive tar 发送到作业运行的目标节点。 (请参阅HIVE-5547。)这意味着 Hive 不需要安装在 Hadoop 集群中的每个节点上。这与安全性无关，但是提高了可 Management 性。 webhcat-site.xml 参数记录在 webhcat-default.xml 中。	Hive 0.13.0 中的可选	false

standard parameters也受支持。

Results

Name	Description
id	包含类似于“ job_201110132141_0001”的作业 ID 的字符串。
info	一个 JSON 对象，其中包含作业排队时返回的信息。有关更多信息，请参见 Hadoop 文档(Class TaskController)。

Example

代码和数据设置

% hadoop fs -put wordcount.jar .
% hadoop fs -put transform.jar .

% hadoop fs -ls .
Found 2 items
-rw-r--r--   1 ctdean supergroup         23 2011-11-11 13:29 /user/ctdean/wordcount.jar
-rw-r--r--   1 ctdean supergroup         28 2011-11-11 13:29 /user/ctdean/transform.jar

Curl Command

% curl -s -d jar=wordcount.jar \
       -d class=org.myorg.WordCount \
       -d libjars=transform.jar \
       -d arg=wordcount/input \
       -d arg=wordcount/output \
       'http://localhost:50111/templeton/v1/mapreduce/jar?user.name=ekoifman'

Version information

在 Hive 0.13.0 之前，在 POST 请求中将 user.name 指定为表单参数curl -d user.name=<user>。

从Hive 0.13.0开始，应在查询字符串中指定 user.name(如上所示)：'http://.../templeton/v1/mapreduce/jar?user.name=<name>'。不建议将 user.name 指定为表单参数。

JSON Output

{
 "id": "job_201111121211_0001",
 "info": {
          "stdout": "templeton-job-id:job_201111121211_0001
                    ",
          "stderr": "",
          "exitcode": 0
         }
}

Navigation Links

Previous: POST mapreduce/streaming
Next: POST pig

常规：WebHCat Reference – WebHCat Manual – HCatalog Manual – Hive Wiki 主页 – Hive 项目 site

Docs

Docs4dev

Title here