前言

在工作中，大部使用的都是hadoop和spark的shell命令，或者通过java或者scala编写代码。最近工作涉及到通过yarn api处理spark任务，感觉yarn的api还是挺全面的，但是调用时需要传入很多参数，而且会出现一些诡异的问题。虽然最终使用livy来提交任务，但是通过yarn api提交任务可以帮助使用者更好的理解yarn，而且使用yarn查询任务还是不错的。至于livy的安装和使用，我也会通过后面的文章分享出来。

前期准备

本篇的开发环境为Hadoop 2.6、Spark 2.3.1，版本有些差异也无所谓。
我使用的是postman来调用yarn api，你也可以使用编程语言来实现http请求。
首先启动yarn
启动hdfs

start-hdfs.sh

这里写图片描述
4. 准备一个spark jar包，如果没有可以使用spark样例spark-examples_2.11-2.3.1.jar，并上传到hdfs上

hdfs dfs -put $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.1.jar /

准备需要引入的spark库，打包成zip文件，并上传到hdfs上

cd $SPARK_HOME/jars
zip -q -r __spark_libs__.zip *
hdfs dfs -put __spark_libs__.zip /

这里写图片描述
6. 启动yarn

start-yarn.sh

正篇

本篇基本都是参考hadoop官方文档，有兴趣的可以阅读一下，里面有很多API接口
这里写图片描述

创建spark任务

从官方文档中找到创建spark任务的api

http://localhost:8088/ws/v1/cluster/apps/new-application

这里写图片描述

查看jar包的属性

http://localhost:50070/webhdfs/v1/spark-examples_2.11-2.3.1.jar?op=GETFILESTATUS

这里写图片描述

查看spark库zip文件属性

http://localhost:50070/webhdfs/v1/__spark_libs__.zip?op=GETFILESTATUS

这里写图片描述

扫描二维码关注公众号，回复： 6124144 查看本文章

提交spark任务

http://localhost:8088/ws/v1/cluster/apps

这里的__app__.jar和__spark_libs__的相关参数，就是使用上面的通过hdfs API获得的两个文件的属性。
{
  "application-id": "application_1534993174414_0001", 
  "application-name": "SparkPi", 
  "application-type": "YARN", 
  "keep-containers-across-application-attempts": false, 
  "max-app-attempts": 1, 
  "resource": {
    "memory": 1024, 
    "vCores": 1
  }, 
  "unmanaged-AM": false, 
  "am-container-spec": {
    "commands": {
      "command": "java -server -Xmx1024m -Dspark.yarn.app.container.log.dir=<LOG_DIR> -Dspark.master=yarn -Dspark.submit.deployMode=cluster -Dspark.executor.cores=1 -Dspark.executor.memory=1g -Dspark.app.name=SparkPi org.apache.spark.deploy.yarn.ApplicationMaster --class org.apache.spark.examples.SparkPi --jar __app__.jar 1><LOG_DIR>/stdout 2><LOG_DIR>/stderr"
    }, 
    "environment": {
      "entry": [
        {
          "key": "SPARK_USER", 
          "value": "luoxinliang"
        }, 
        {
          "key": "SPARK_YARN_MODE", 
          "value": true
        }, 
        {
          "key": "SPARK_YARN_STAGING_DIR", 
          "value": "hdfs://localhost:9000/user/luoxinliang/.sparkStaging/application_1534993174414_0001"
        }, 
        {
          "key": "CLASSPATH", 
          "value": "{{PWD}}<CPS>{{PWD}}/__app__.jar<CPS>{{PWD}}/__spark_libs__/*<CPS>$HADOOP_CONF_DIR<CPS>$HADOOP_COMMON_HOME/share/hadoop/common/*<CPS>$HADOOP_COMMON_HOME/share/hadoop/common/lib/*<CPS>$HADOOP_HDFS_HOME/share/hadoop/hdfs/*<CPS>$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*<CPS>$HADOOP_YARN_HOME/share/hadoop/yarn/*<CPS>$HADOOP_YARN_HOME/share/hadoop/yarn/lib/*<CPS>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*<CPS>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*<CPS>{{PWD}}/__spark_conf__/__hadoop_conf__"
        }, 
        {
          "key": "SPARK_DIST_CLASSPATH", 
          "value": "{{PWD}}<CPS>{{PWD}}/__app__.jar<CPS>{{PWD}}/__spark_libs__/*<CPS>$HADOOP_CONF_DIR<CPS>$HADOOP_COMMON_HOME/share/hadoop/common/*<CPS>$HADOOP_COMMON_HOME/share/hadoop/common/lib/*<CPS>$HADOOP_HDFS_HOME/share/hadoop/hdfs/*<CPS>$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*<CPS>$HADOOP_YARN_HOME/share/hadoop/yarn/*<CPS>$HADOOP_YARN_HOME/share/hadoop/yarn/lib/*<CPS>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*<CPS>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*<CPS>{{PWD}}/__spark_conf__/__hadoop_conf__"
        }
      ]
    }, 
    "local-resources": {
      "entry": [
        {
          "key": "__app__.jar", 
          "value": {
            "resource": "hdfs://localhost:9000/spark-examples_2.11-2.3.1.jar", 
            "size": 1997556, 
            "timestamp": 1534953699017, 
            "type": "FILE", 
            "visibility": "APPLICATION"
          }
        },
        {
          "key": "__spark_libs__", 
          "value": {
            "resource": "hdfs://localhost:9000/__spark_libs__.zip", 
            "size": 232213530, 
            "timestamp": 1534955145924, 
            "type": "ARCHIVE", 
            "visibility": "APPLICATION"
          }
        }
      ]
    }
  }
}

上面的传入参数会容易理解，但是收集这些参数很麻烦。值得注意的一个地方是command这个参数，使用的是java运行spark的一个类org.apache.spark.deploy.yarn.ApplicationMaster，而不是我们熟悉的spark-submit命令。笔者也尝试的使用spark-submit来作为command，结果是提交了两个任务，一个是通过yarn api提交的伤，另一个是spark-submit命令提交的任务。前者状态显示失败，而后一个是成功。原因是ApplicationMaster在执行后，会返回一个ExitCode=0。当把java运行ApplicationMaster改成spark-submit是不会有返回ExitCode。
这里写图片描述

有兴趣的读者还可以尝试一下spark-shell –master yarn，看看它启动时的yarn日志。