Spark2.4.5词频统计(python) - 代码天地

Spark2.4.5词频统计(python)

其他 2020-04-13 17:10:17 阅读次数: 0

使用jupyter notebook作为交互工具，python语言写。

代码

sc.textFile()用于加载文件数据。

words = sc.textFile('/data/word.txt')

结果：

/data/word.txt MapPartitionsRDD[3] at textFile at NativeMethodAccessorImpl.java:0

这是由于Spark的惰性操作。
添加行动操作：

words.first()

词频统计：

wordCount = words.flatMap(lambda line:line.split(" ")).map(lambda word:(word,1)).\
reduceByKey(lambda a, b: a+b)
wordCount.collect()

结果：

[('is', 42),
 ('sheet', 3),
 ('material', 6),
 ('produced', 7),
 ('mechanically', 2),
 ('and/or', 1),
 ('cellulose', 3),
 ('derived', 3),
 ('rags,', 1)]

textFile.flatMap()操作把多个单词集合“拍扁”到一个大的单词集合；
单词集合执行map()操作。
经过map，得到RDD，每个元素是（key,value）形式。最后执行reduceByKey()按照key进行分组，相同key的value相加。

参考：

Spark2.1.0+入门：第一个Spark应用程序：WordCount(Python版);

rosefunR

发布了513 篇原创文章 · 获赞 152 · 访问量 77万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/rosefun96/article/details/105491660

Spark2.4.5词频统计(python)

spark2.4.5搭建过程

Spark2.4.5集群安装与本地开发

03 使用spark进行词频统计【python】

spark ---词频统计(二)

spark词频统计

【Spark RDD：词频统计】

spark----词频统计(一)

spark学习（词频统计案例）

Spark Streaming词频统计实例

Spark RDD文件词频统计

Spark RDD案例：词频统计

使用Spark实现词频统计

用Spark实现的词频统计

Python文本词频统计

python词频统计

Python 词频统计

python实现词频统计

Python 简易词频统计

python统计词频

统计词频 -- Python

词频统计（python）

Python之词频统计

python --统计词频Counter

python词频统计_英文

python---词频统计

【python】词频统计

【Python】文本词频统计

Python 分词并统计词频

python词频统计代码

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)