在Spark Shell中编写WordCount程序 - 代码天地

在Spark Shell中编写WordCount程序

其他 2018-10-18 23:32:54 阅读次数: 0

Spark Shell是一个交互式的命令行，里面可以写Spark程序(Scala语言)，也是一个客户端，用于提交Spark程序

1.启动Spark Shell

bin/spark-shell

上边是没有指定Master地址的启动方式，启动后用的是spark的local模式运行的，是模拟了spark集群运行的过程

bin/spark-shell --master spark://cdh0:7077,cdh1:7077

上边是指定了Master地址的启动方式，会将任务提交到集群，这时候使用jps查看，可以看到机器上的SparkSubmit和CoarseGrainedExecutorBackend进程都已经存在了，SparkSubmit会连接Master，并申请计算资源，然后Master进行资源调度(让Worker来启动Executor)

2.向hdfs中上传一个用来测试的数据文件

例如： test.txt

hdfs yarn
hadoop hdfs
yarn mapreduce
hadoop yarn
hdfs mapreduce

然后上传到hdfs中

3.在Spark Shell中编写WordCount程序

在Spark Shell中使用Scala编写Spark程序

sc.textFile("hdfs://cdh0:8020/usr/ys/input/test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://cdh0:8020/usr/output")

参数说明：

sc是SparkContext对象，该对象是提交spark程序的入口

textFile("hdfs://cdh0:8020/usr/ys/input/test.txt")是向hdfs中读取数据

flatMap(_.split(" "))是先map后进行扁平化操作

map((_,1))是将单词和1构成元组

reduceByKey(_+_)是按照key进行reduce，并将value累加

saveAsTextFile("hdfs://cdh0:8020/usr/output2")是保存到hdfs的目录中

4.在hdfs中查看结果

bin/hdfs dfs -cat /usr/output/*

猜你喜欢

转载自blog.csdn.net/ys_230014/article/details/83003089

在Spark Shell中编写WordCount程序

Spark 编写WordCount程序

spark-shell开发wordcount程序

Spark系列(五)IDEA编写及调试Spark的WordCount程序

Spark(29)-Spark Shell及编写Spark独立应用程序

spark入门程序WordCount

Spark开发wordcount程序

Spark -- WordCount程序

spark wordcount程序

spark通过spark shell执行WordCount

spark streaming中WordCount

用IDEA编写spark的WordCount

spark的shell命令操作(wordcount)

在IDEA中编写spark程序

【spark】spark集群的安装和spark shell测试wordcount

在spark-shell中运行代码编写Spark独立应用程序在集群上运行Spark应用程序

Spark WordCount

Spark的WordCount

Spark : 在IDEA中用scala编写Spark的WordCount程序并提交运行

Spark的Wordcount程序图文详解！

spark 版 WordCount 程序分析

Spark集群安装和WordCount编写

使用idea编写Spark Streaming_WordCount

Spark-用IDEA编写wordcount demo

Spark深入解析（六）：SparkCore之Spark代码编写WordCount

idea编写spark程序

【Spark】Spark六： Spark版本的WordCount

Spark-shell初体验：WordCount

Spark使用idea和shell计算WordCount

大话Spark(3)-一图深入理解WordCount程序在Spark中的执行过程

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)