【Spark学习】将wordcount程序打包上传到spark集群运行 - 代码天地

【Spark学习】将wordcount程序打包上传到spark集群运行

其他 2020-05-24 10:34:42 阅读次数: 0

1.编写wordcount程序

package RDDTest

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object test03 {
  def main(args: Array[String]): Unit = {
    //构建SparkConf对象
    val conf:SparkConf = new SparkConf().setAppName("wc").setMaster("spark://192.168.220.25:7077")

    //构建上下文对象
    val sc:SparkContext = new SparkContext(conf)

    //读取文件
    //这个args(0)表示获取从外部传入参数的第一个
    val input:RDD[String] = sc.textFile(args(0))

    //对该文件中的数据进行单词词频统计
    val result:RDD[(String,Int)] = input.flatMap(_.split(" ")).map((_ ,1)).reduceByKey(_+_)

    //将结果存储到文件中
    //repartition(1)为了更直观的看到结果 这里将分区数设为 1 
    //这个args(1)表示获取从外部传入参数的第二个
    result.repartition(1).saveAsTextFile(args(1))

    //关闭连接
    sc.stop()
  }
}

2.将程序打包
点击package ，idea会开始自动打包
在这里插入图片描述
3.打包完成后会生成target目录，这个目录里就有我们需要的jar包

4.将jar包上传到集群

5.这个是hdfs上待统计单词文件的目录

6.将wordcount程序提交到spark集群上
注意：这里的输出目录output不需要自己创建，否则会报错。spark会自动创建

bin/spark-submit \
--class RDDTest.test03 \
--master spark://master:7077 \
./Spark-1.0-SNAPSHOT.jar \
hdfs://master:9000/spark/input/words.txt hdfs://master:9000/spark/output

7.等待程序运行完成
在这里插入图片描述
8.这里可用看到已经生成了结果文件

9.查看文件内容

猜你喜欢

转载自blog.csdn.net/xiexianyou666/article/details/106052243

【Spark学习】将wordcount程序打包上传到spark集群运行

Spark用IntelliJ + maven打jar包上传到Spark集群上运行

windows下idea编写WordCount程序，并打jar包上传到hadoop集群运行

Spark打包运行wordcount

windows下idea编写WordCount程序，并打jar包上传到hadoop集群运行（傻瓜版）

Maven打包Java版的spark程序到jar包，本地Windows测试，上传到集群中运行

windows下用Eclipse开发Wordcount程序并生成jar包上传到hadoop集群去执行

Spark集群中WordCount运行原理

如何把你的.net程序打包上传到nuget

关于大数据领域各个组件打包部署到集群运行的总结（含手动和maven）（博主推荐） Eclipse/MyEclipse下如何Maven管理多个Mapreduce程序？（企业级水平） IDEA里如何多种方式打jar包，然后上传到集群 Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐)

程序在eclipse运行正常，但是打包上传到服务器上却报“java.lang.reflection.invocationTargetException”

spark运行wordcount

在local模式下的spark程序打包到集群上运行 Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分布式环境搭建 Spark学习之在集群上运行Spark

fastlane自动打包上传到AppStore

maven打包上传到仓库

Maven打包上传到私服仓库

Windows文件打包上传到Linux

spark入门程序WordCount

Spark开发wordcount程序

Spark -- WordCount程序

Spark 编写WordCount程序

spark wordcount程序

intellij链接真实spark集群运行wordcount-Java

intellij链接真实spark集群运行wordcount-Java

将python包上传到PyPI

十八、在pom.xml中使用distributionManagement将项目打包上传到nexus私服

将jar打包上传到本地和远程maven仓库

将MongoDB数据库打包上传到ECS云服务器

expect 脚本来实现自动将本地文件打包上传到远程服务器

如何将项目打包上传到NuGet服务器（图文教程）？

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)