idea中直接运行spark程序 - 代码天地

idea中直接运行spark程序

其他 2020-01-20 10:18:19 阅读次数: 0

我们可以在IDEA中直接运行spark程序，来连接服务器上的HDFS或者是spark集群来跑spark任务。

提前工作
我们需要先解决idea直接运行程序远程访问HDFS的问题。
1. 首先下载 hadoop-common-2.6.0-bin-master.rar 压缩包（需要和服务器上的Hadoop版本对应），解压到任意目录，然后在环境变量中添加 HADOOP_HOME ，变量值为解压的位置。
2. 在 PATH 变量中添加以下值：%HADOOP_HOME%\bin ，之后确认即可，如果后面在idea中运行程序报错：
  
  则重启一下电脑，使上面的配置生效。
本地运行
本地调试是使用本地idea中编写的代码引入的spark的相关jar包来运行spark程序，将spark程序提交到本地spark（本地并不需要安装Windows版本的spark）运行。下面是获取SparkContext的代码：
```
val config = new SparkConf().setAppName("WordCount").setMaster("local")
val sparkContext = new SparkContext(config)
```
一定要调用setMaster()方法，方法参数设置为local。
之后直接运行主方法就可以运行该程序。
远程运行
远程运行是指经过代码设置，idea自动将代码打包并发布到指定的远程服务器上的spark上运行，远程服务器上的spark master接受jar包，并发布给worker运行，并可以在页面上看到master和worker中程序的执行情况。下面是获取SparkContext的代码：
```
val config = new SparkConf().setAppName("WordCount").setMaster("spark://zb2:7077")
    .setJars(List("target/sparkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar"))
    .setIfMissing("spark.driver.host", "172.16.72.251")
val sparkContext = new SparkContext(config)
```
1. setMaster方法中设置远程spark服务的master地址；
2. setJars方法中传递一个Seq，里面写上jar包的位置（idea中打完jar包的位置）；
3. setIfMissing方法中设置spark驱动的机器IP地址，也就是你Windows开发电脑的IP地址。
4. 之后直接运行主方法就可以运行该程序，idea自动打包并发布到远程spark服务器。

注意：你的Windows和虚拟机里面的spark所在的linux系统（或者是linux服务器）必须能够互相ping通才行，而且都得关闭防火墙，因为他们相互之间需要通信。

第一片心意

发布了20 篇原创文章 · 获赞 47 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/u012443641/article/details/93492360

idea中直接运行spark程序

在Eclipse中直接运行Mapreduce程序

IDEA 程序直接运行分析

在sublime中直接运行python代码

在Pycharm中开发Django项目，在IDE中直接运行程序报错----解决

在notepad++中直接运行python代码

Intellij中直接运行ts配置：run configuration for typescript

docker与直接运行本地程序的区别

配置editplus直接运行php程序

notepad++ 直接运行程序

在notepad++中直接运行python代码快捷方式设置

DOS窗口中直接运行cmd命令执行sql文件

Typescript | ts转换到AMD在浏览器中直接运行

初次使用python之在notepad++中直接运行python代码

[译] 如果可以，永远不要在生产中直接运行 Node.js

Notepad++中直接运行浏览器查看网页效果

在vscode中直接运行Python脚本文件出现SyntaxError: invalid syntax错误

Spark中直接操作HDFS

在notepad++中编写perl程序并直接运行

如何用atom直接运行python程序

matlab实现ICA的实例，程序可直接运行

如何在linux上直接运行python程序

全局变量与局部变量解释，以下代码可直接复制到编译器中直接运行。

python225（运行程序01—增加Shebang符号直接运行python程序）

C++ Openssl AES GCM 128bits代码示例，可wins10的visual studio 2017 中直接运行

IDEA不能直接运行单个JAVA文件的解决办法

idea新建Maven项目后热部署及其配置tomcat直接运行方法

idea打包java可执行jar包 ----- java -jar直接运行某个main方法

IDEA不能直接运行（或test)单个JAVA文件的解决办法

IDEA小技巧：Markdown里的命令行可以直接运行了

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)