Spark词频前十的统计练习 - 代码天地

Spark词频前十的统计练习

其他 2020-04-14 11:01:18 阅读次数: 0

注：图片如果损坏，点击文章链接：https://www.toutiao.com/i6815390070254600712/

承接上一个文档《Spark本地环境实现wordCount单词计数》

进一步延伸，做一个词频前十的统计练习

逻辑：在reduceByKey的基础上，首先要根据key对应的value值进行排序（降序排序），取前10个的结果就是Top10

val reduceByKeyRDD = sc.textFile("file:///opt/bigdata/spark/README.md").flatMap(_.split(" ")).filter(_.nonEmpty).map((_,1)).reduceByKey(_+_)

Spark词频前十的统计练习

reduceByKeyRDD.sortBy(t => t._2,ascending=false)

Spark词频前十的统计练习

reduceByKeyRDD.sortBy(t => t._2,ascending=false).take(10)

Spark词频前十的统计练习

sortBy函数：第一个匿名函数表示按照元组的第二个元素进行排序，ascending=false表示按照降序排序，如果不指定这个参数，默认是升序的排序

Spark词频前十的统计练习

reduceByKeyRDD.sortBy(t => t._2 * -1).take(10)

也实现了降序排列，提取TOP10

Spark词频前十的统计练习

下面这个方法也可以

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).map(t => t.swap).take(10)

分解看下：

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).
t.swap ：("the",22) --> (22,"the") --> ("the",22)

Spark词频前十的统计练习

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).map(t => t.swap).take(10)

Spark词频前十的统计练习

下面这个性能会更好：

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).take(10).map(t => t.swap)

Spark词频前十的统计练习

用top(10)代替sortByKey(ascending=false).take(10)这一部分

reduceByKeyRDD.map(t => t.swap).top(10).map(t => t.swap)

Spark词频前十的统计练习

猜你喜欢

转载自www.cnblogs.com/bqwzy/p/12696435.html

Spark词频前十的统计练习

Spark streaming 实时计算框架基本练习----词频统计

spark ---词频统计(二)

spark词频统计

【Spark RDD：词频统计】

spark----词频统计(一)

spark学习（词频统计案例）

Spark Streaming词频统计实例

Spark RDD文件词频统计

Spark RDD案例：词频统计

使用Spark实现词频统计

用Spark实现的词频统计

Spark环境安装部署及词频统计实例

Spark基于Java Api 的词频统计

03 使用spark进行词频统计【python】

Spark2.4.5词频统计(python)

python练习题7.1词频统计

【练习题之】统计词频

基础Java练习20：词频统计

使用Spark Streaming整合Spark SQL完成词频统计操作

Spark shell 词频统计和统计PV心得

词频统计

统计词频

Spark编程模型（之莎士比亚文集词频统计实现）

spark学习（二）之简单应用程序——词频统计

02 使用spark进行词频统计【scala交互】

spark学习第一天-词频统计demo

spark学习02天-scala读取文件，词频统计

05 使用spark进行词频统计【scala sbt】

IDEA增加Spark依赖关系及其简单使用-词频统计

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)