Spark—WordCount实例

前提:

启动Spark集群和Spark Shell

1.启动Spark集群

cd spark目录
sbin/start-all.sh

2.启动Spark Shell

cd spark目录
bin/spark-shell --master spark://机器名:7077 --executor-memory 1024m --driver-memory 1024m

在WordCount程序中,首先会读取Spark目录下的README.md文件,然后把读取进来的内容进行分词,在这里分词的方法时使用空格进行分割,最后统计单词出现的次数,按照倒序打印显示出现次数最多的10个单词。

执行脚本如下:

sc.textFile("/opt/software/spark-2.4.3/README.md").flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).take(10)

结果:

res1: Array[(String, Int)] = Array(("",72), (the,24), (to,17), (Spark,16), (for,12), (and,10), (a,9), (##,9), (run,7), (on,7))
发布了98 篇原创文章 · 获赞 148 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_40310148/article/details/90573622