spark用shell命令将文档中单词出现次数按降序排列，并写入到hdfs中 - 代码天地

spark用shell命令将文档中单词出现次数按降序排列，并写入到hdfs中

其他 2021-01-29 04:41:29 阅读次数: 0

1、启动spark（进入spark的bin目录下，输入：./spark-shell命令）

在这里插入图片描述

2、声明一个变量，通过val first=sc.textFile("file:///home/yaozhen/movie.txt");指令从该文档中获取数据，file指的是当前节点的路径下的文档；（生成Rdd）

3、查询文档中内容的行数，first.count;(注意：文档结束后不要换行，否则会多算一行；另外，在上面写文档路径的时候，file后面需要加“///”,否则该方法无法调用)；

4、通过val third=first.flatMap(lines => lines.split("\t"));指令将文档类的内容“拍扁”成一个个单词，然后按照“\t”（制表符）的样式切割（注意：split方法中的参数取决于文档中元素是按照怎样的符号分割的。）

5、可以使用 third.collect;指令查询一下生成的Rdd内容的样式。

6、使用val four=third.map(words => (words,1));方法，将文档中的内容按照（key，value）的方式封装，其中value为1；

7、可以使用 four.collect;指令查询一下当前的Rdd内容的样式；

在这里插入图片描述

8、使用val five=four.reduceByKey(_+_);指令将封装好的map中的同一个key下面的value值进行相加；

9、将action完后的数据的key和value位置互换，使用元组中的val six=five.map(res => (res._2,res._1));方法；

10、使用val eight=six.sortByKey(false);方法，将封装好的map按照key的大小进行降序，（sortByKey（）默认为升序，参数传入false则为降序）；

11、使用val nine=eight.map(ret => (ret._2,ret._1);方法，将map中的key和value位置互换；

12、使用 nine.saveAsTextFile("hdfs://192.168.88.2:9000/res");方法，将运算后的新数据存入hdfs中（记得一定要启动hdfs），res文件夹不需要自己创建，hdfs会自己创建（上传成功后，spark指令不会报错，直接跳入下一行）。成功后，输入hdfs的地址和端口号即可查询数据是否写入。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43365615/article/details/113127299

spark用shell命令将文档中单词出现次数按降序排列，并写入到hdfs中

shell小技巧（九）将文件中按单词出现频率降序排序

统计单词在每个文件中出现的次数，并且将出现次数按照降序排列

sed详解:用一条Linux命令统计这个文件中某个单词出现的次数

Spark SQL从MySQL中加载数据以及将数据写入到mysql中 Spark Shell方式 Spark SQL程序

做一个词频统计程序，该程序具有以下功能基本要求：（1）可导入任意英文文本文件（2）统计该英文文件中单词数和各单词出现的频率（次数），并能将单词按字典顺序输出。（3）将单词及频率写入文件。

单向链表-按出现次数降序

（java）统计若干段英文中的单词数量，并统计每个单词出现的次数按降序排序。

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序

真正帮你实现—MapReduce统计WordCount词频，并将统计结果按出现次数降序排列

java统计文章中单词出现的次数

Hadoop 统计文件中单词出现的次数

【Python】统计文本中单词的出现次数

Linux统计文件中单词出现的次数

查询文件中单词出现的次数

将HDFS中的数据写入HBase

统计英文文档中每个单词出现的次数并排序

用MapReduce把hdfs数据写入HBase中

SQLAlchemy按降序排列？

将字符串向hdfs中写入，出现中文乱码！

[串] 统计每个单词出现的次数，降序输出

Python基础：用Python统计列表中每个单词出现的次数（split 的使用，for双重循环）

使用spark将内存中的数据写入到hive表中

java代码将list按行写入到txt文件中

Python中求一个列表中的众数,并统计元素出现的次数存入字典，最后将字典的值降序排序

shell统计日志中ip出现次数

统计文档中单词出现频率

Spark把执行结果写入到mysql中

数据写入到TXT文档中

将mysql中的数据导入到hdfs，spark程序实现

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)