spark-submit使用yarn cluster模式时如何获取applicationId?

版权声明:欢迎转载,注明出处即可 https://blog.csdn.net/yolohohohoho/article/details/88067276

问题描述

在自动化的项目中,需要将spark-submit程序包装起来,通过c语言或者shell来调用,因为需要记录日志,即需要知道每次提交的spark的程序的applicationId, 将其记录。spark程序是使用yarn cluster模式提交的,因此driver在集群中的任意机子,无法确定。

什么是applicationId

applicationId是Spark应用程序的唯一标识符。根据不同的提交模式,通常有以下两种格式

  • local模式下,一般以local- 开头,例如 local-1433865536131
  • yarn模式下,则以application_开头,例如application_1433865536131_34483

解决方法

  1. 在spark编写的程序中获得,然后可以写到对应的HDFS文件上或通过邮件通知,但这个并不是很符合我的需求。
    例子如下:
  • Python

    >>> sc._jsc.sc().applicationId()
    u'application_1433865536131_34483'
    >>> sc.applicationId 
    u'application_1433865536131_34483'
    >>> #以上两种方法都可以。
    
  • Scala

    scala> sc.applicationId
    res0: String = application_1433865536131_34483
    
  1. 在spark-submit后, 捕捉stdout/stderr,然后解析固定的pattern获取applicationId。
    例如解析标准输出中的 Yarn Application id: application_1433865536131_34483

参考资料
spark-yarn-mode-how-to-get-applicationid-from-spark-submit)

猜你喜欢

转载自blog.csdn.net/yolohohohoho/article/details/88067276
今日推荐