spark-submit使用yarn cluster模式时如何获取applicationId？ - 代码天地

spark-submit使用yarn cluster模式时如何获取applicationId？

其他 2019-03-02 00:20:51 阅读次数: 0

版权声明：欢迎转载，注明出处即可 https://blog.csdn.net/yolohohohoho/article/details/88067276

文章目录

问题描述
什么是applicationId
解决方法

问题描述

在自动化的项目中，需要将spark-submit程序包装起来，通过c语言或者shell来调用，因为需要记录日志，即需要知道每次提交的spark的程序的applicationId, 将其记录。spark程序是使用yarn cluster模式提交的，因此driver在集群中的任意机子，无法确定。

什么是applicationId

applicationId是Spark应用程序的唯一标识符。根据不同的提交模式，通常有以下两种格式

local模式下，一般以local- 开头，例如 local-1433865536131
yarn模式下，则以application_开头，例如application_1433865536131_34483

解决方法

在spark编写的程序中获得，然后可以写到对应的HDFS文件上或通过邮件通知，但这个并不是很符合我的需求。
例子如下：

Python

>>> sc._jsc.sc().applicationId()
u'application_1433865536131_34483'
>>> sc.applicationId 
u'application_1433865536131_34483'
>>> #以上两种方法都可以。

Scala

scala> sc.applicationId
res0: String = application_1433865536131_34483

在spark-submit后, 捕捉stdout/stderr，然后解析固定的pattern获取applicationId。
例如解析标准输出中的 Yarn Application id: application_~~1433865536131_34483~~

参考资料
spark-yarn-mode-how-to-get-applicationid-from-spark-submit)

猜你喜欢

转载自blog.csdn.net/yolohohohoho/article/details/88067276

spark-submit使用yarn cluster模式时如何获取applicationId？

spark-submit 提交yarn-client yarn-cluster两种模式的差别

Spark spark-submit 提交的几种模式

获取spark-submit --files的文件内容

如何合理设置spark-submit参数

Spark-Submit提交流程源码分析（Yarn-Cluster源码分析， Yarn-Cluster 和 Yarn-Client 的区别）

Spark 在YARN上运行，以集群模式启动Spark应用程序：spark-submit --class org.apache.spark.examples.SparkPi \ 。。。如何查看结果？

用spark-submit提交任务给集群时涉及的参数

如何设置定时任务（spark-submit,crontab）？

SPARK spark-submit提交deploy-mode client改为cluster模式

spark-submit使用及说明

spark-submit时上传spark依赖到hdfs时间较长问题解决

Spark（四十四）：使用Java调用spark-submit.sh(支持 --deploy-mode client和cluster两种方式)并获取applicationId

spark-submit之使用pyspark

spark-submit 提交任务到yarn集群报错

spark-submit提交任务到yarn错误

spark-submit相关

spark-submit

spark之使用spark-submit部署应用

Spark on YARN ：yarn-cluster模式如何查看日志

spark-submit参数释义

Spark-Submit脚本执行

kill不掉 spark-submit

6. spark-submit

Spark 任务名在使用yarn-cluster模式提交时不生效

spark-submit 以yarn-cluter 提交job 定位错误之旅

【Spark】源码分析之spark-submit

Spark-submit方式提交spark任务

Spark之——使用spark-submit部署应用（基于Spark 1.X）

spark-submit --master yarn 需要增加的配置WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)