IDEA远程提交运行HDFS的Spark程序--优化篇1 - 代码天地

IDEA远程提交运行HDFS的Spark程序--优化篇1

其他 2019-01-30 09:00:49 阅读次数: 0

之前说到，我可以直接让spark程序去引用HDFS上的jar包路径，解决因为上传依赖jar包导致的时间过长的问题。

上次还有一个遗留问题，我必须要在hadoop-yarn-common-2.6.4.jar包下的 yarn-default.xml中修改hostname的值才可以正常提交，这显然不符合正常使用的要求，我配置了那么多信息，难道必须在各个jar包重新设置吗？

我重新观察了以下正常spark-submit提交，和我在idea中提交的区别。
在这里插入图片描述
非常直观，左边将hadoop的配置文件统统上传了，右边则没有。所以许多配置信息都无法读取到。

再打开下面这文件。
在这里插入图片描述

该属性指向了包含配置文件的zip包，让spark程序在运行中能引用。
那它可以设置，我在代码中是不是也能修改这个参数。

进入源码，关于该参数的解释如下。
在这里插入图片描述
调用时改了个名字。

 // This code forces the archive to be copied, so that unit tests pass (since in that case both
 // file systems are the same and the archive wouldn't normally be copied). In most (all?)
 // deployments, the archive would be copied anyway, since it's a temp file in the local file
 // system.
    val remoteConfArchivePath = new Path(destDir, LOCALIZED_CONF_ARCHIVE)
    val remoteFs = FileSystem.get(remoteConfArchivePath.toUri(), hadoopConf)
    sparkConf.set(CACHED_CONF_ARCHIVE, remoteConfArchivePath.toString())

那按源码的方式，修改一下是不是也可以。
我将hadoop的配置文件打成ZIP包上传，并添加代码

sparkConf.set("spark.yarn.cache.confArchive","hdfs://192.168.79.101:9000/user/hadoop/hadoop_conf.zip");

启动后，该部分发现该语句根本就没生效。
该属性是internal修饰了，是不是因为这个内部设置导致我无法用外部修改。
先发着帖子，看看有没有大神有办法。

猜你喜欢

转载自blog.csdn.net/weixin_41008393/article/details/86525580

IDEA远程提交运行HDFS的Spark程序--优化篇1

IDEA远程提交运行HDFS的Spark程序--优化篇2

IDEA远程提交运行HDFS的Spark程序

Spark : 在IDEA中用scala编写Spark的WordCount程序并提交运行

IDEA+spark+scala wordcount 测试任务提交运行

第一个Spark程序（编码+Spark-submit提交运行）

MR程序的几种提交运行模式

MapReduce 程序的几种提交运行模式

Hadoop中MR程序的几种提交运行模式

利用idea对spark程序进行远程提交和调试

eclipse或idea中开发spark程序本地运行以及提交集群运行

关于在本地idea当中提交spark代码到远程的错误总结（第二篇）

Yarn的工作机制，以及MR Job提交运行过程

Flink提交运行中常见问题总结

Spark入门（四）Idea远程提交项目到spark集群

spark程序，创建提交和运行

spark-submit spark应用程序提交和运行

Idea本地运行spark，操作HDFS（spark-without-hadoop版的spark）

Idea 本地运行spark程序参数配置

IDEA创建本地Spark程序，并本地运行

idea中直接运行spark程序

IDEA远程操作HDFS

IDEA打包MapReduce程序，jar在hdfs集群运行

idea打spark jar包并提交到spark集群运行

HDFS集群优化篇

idea spark远程调试

idea远程调试 spark

将应用程序提交到spark环境并将结果输出到hdfs

IDEA编写wordcount，读取hdfs文件，运行在Spark集群例子

IDEA本地运行Spark项目[演示自定义分区器]并查看HDFS结果文件

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)