Spark—WordCount实例

其他 2020-02-09 09:41:38 阅读次数: 0

前提：

启动Spark集群和Spark Shell

1.启动Spark集群

cd spark目录
sbin/start-all.sh

2.启动Spark Shell

cd spark目录
bin/spark-shell --master spark://机器名:7077 --executor-memory 1024m --driver-memory 1024m

在WordCount程序中，首先会读取Spark目录下的README.md文件，然后把读取进来的内容进行分词，在这里分词的方法时使用空格进行分割，最后统计单词出现的次数，按照倒序打印显示出现次数最多的10个单词。

执行脚本如下：

sc.textFile("/opt/software/spark-2.4.3/README.md").flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).take(10)

结果：

res1: Array[(String, Int)] = Array(("",72), (the,24), (to,17), (Spark,16), (for,12), (and,10), (a,9), (##,9), (run,7), (on,7))

如初⁰

发布了98 篇原创文章 · 获赞 148 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_40310148/article/details/90573622

Spark—WordCount实例

Spark编程环境搭建及WordCount实例

Spark WordCount

Spark的WordCount

Spark源码编译并在YARN上运行WordCount实例

SparkStreaming（9）：实例-Streaming整合Spark SQL，进行wordcount功能

spark 第一个简单实例wordcount

wordcount实例

spark eclipse写wordcount

Spark入门之WordCount

Spark wordCount案例

Spark的WordCount练习（二）

spark 例子wordcount topk

spark---01---wordcount

Spark wordcount入门

spark的wordcount执行流程

Spark job WordCount分析

spark入门程序WordCount

Spark核心编程-WordCount

Spark- WordCount Demo

使用 Spark 创建WordCount

Spark写WordCount

WordCount在Spark的执行原理

spark_wordcount

spark streaming中WordCount

Spark WordCount 执行流程

Spark+IDEA+WordCount

spark wordcount 单词统计

Spark开发wordcount程序

Spark实现WordCount

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

周排行

mongodb 下载与安装与初步使用

20190530

iOS录制回放神器AutoTouch使用介绍

同心圆猜数字游戏

mamp pro安装redis扩展各个步骤截图

windows10下安装docker报错：error during connect

跨域授权 Federated Identity Pattern

js时间比较大小

pandas to_csv()使用方法

从JDK源码角度看Byte

每日归档

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)