spark通过spark shell执行WordCount - 代码天地

spark通过spark shell执行WordCount

其他 2020-01-21 12:51:34 阅读次数: 0

1，启动spark shell

 spark-shell \
 --master spark://zhangjianfeng012:7077 \    
 --executor-memory 2G \                      内存开始设置500m,运行很慢 
 --total-executor-cores 1

参数说明：

--master spark://zhangjianfeng012:7077 指定Master的地址

--executor-memory 500m:指定每个worker可用内存为500m

--total-executor-cores 1: 指定整个集群使用的cup核数为1个

2、在spark shell中编写WordCount程序

（1）编写一个hello.txt文件并上传到HDFS上的spark目录下

[mr@zhangjianfeng010 ~]$ vi hello.txt
[mr@zhangjianfeng010 ~]$ hadoop fs -mkdir -p /spark
[mr@zhangjianfeng010 ~]$ hadoop fs -put hello.txt /spark

hello.txt的内容如下

you,jump
i,jump
you,jump
i,jump
jump

（2）在spark shell中用scala语言编写spark程序

scala> sc.textFile("/spark/hello.txt").flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).saveAsTextFile("/spark/out")

说明：

sc是SparkContext对象，该对象是提交spark程序的入口

textFile("/spark/hello.txt")是hdfs中读取数据

flatMap(_.split(" "))先map再压平

map((_,1))将单词和1构成元组

reduceByKey(_+_)按照key进行reduce，并将value累加

saveAsTextFile("/spark/out")将结果写入到hdfs中

执行结果查看

卖男孩的小西瓜

发布了189 篇原创文章 · 获赞 86 · 访问量 8万+

私信关注

猜你喜欢

转载自blog.csdn.net/seulzz/article/details/103652815

spark通过spark shell执行WordCount

spark的wordcount执行流程

WordCount在Spark的执行原理

Spark WordCount 执行流程

spark的shell命令操作(wordcount)

spark(五)-wordcount执行过程

【spark】spark集群的安装和spark shell测试wordcount

Spark WordCount

Spark的WordCount

Spark-shell初体验：WordCount

在Spark Shell中编写WordCount程序

spark-shell开发wordcount程序

Spark使用idea和shell计算WordCount

spark中wordcount执行的数据流向

Spark WordCount执行流程以及相关源码

通过yarn执行spark作业应用实例

Spark009--spark-shell执行流程

【Spark】Spark六： Spark版本的WordCount

执行spark-shell报错：

Spark—通过Java、Scala API实现WordCount案例的基本操作

Spark shell

2 大数据实战系列-spark shell wordcount

Spark从入门到精通二----spark任务的提交方式spark-shell/spark-submit----------各种版本的wordcount

Spark WordCount运行原理及其详细执行过程

spark eclipse写wordcount

Spark入门之WordCount

spark 例子wordcount topk

Spark wordCount案例

Spark的WordCount练习（二）

spark---01---wordcount

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)