pyspark程序从hdfs上读取数据求其TopN，并将结果存回hdfs - 代码天地

pyspark程序从hdfs上读取数据求其TopN，并将结果存回hdfs

其他 2020-01-31 15:19:20 阅读次数: 0

问题：选出蜀国中五虎将

原始数据如下：
序号姓名武力值国家
1 刘备 68 蜀国
2 马超 90 蜀国
3 黄忠 91 蜀国
4 魏延 76 蜀国
5 姜维 92 蜀国
6 关羽 96 蜀国
7 严颜 78 蜀国
8 孟达 64 蜀国
9 张飞 88 蜀国
10马谡 76 蜀国
11 赵云 95 蜀国
12 法正 88 蜀国

预期结果如下：
6 关羽 96 蜀国
11 赵云 95 蜀国
5 姜维 92 蜀国
3 黄忠 91 蜀国
2 马超 90 蜀国

新建数据文件
在这里插入图片描述

步骤

导入必要的包，因为用到的是pyspark，最好导入findspark，可以避免一些看不懂的错误
在这里插入图片描述
初始化sparkcontext，local为本地工作方式，topapp为随意取的名字

从hdfs上读取文件，并输出第一行看数据结构方便后面操作

将text转化为list对象（rdd调用collect后变为list对象）

自定义函数，将list数据按空格切开
在这里插入图片描述
将text2转化为dataframe对象，

将武将按武力值排序。

取出武力值top5，如果想取10，则是head(10)。

将dataframe转化为spark dataframe，并将结果存入hdfs

在命令行中查看结果（一长串为自动生成的名字）

发布了42 篇原创文章 · 获赞 21 · 访问量 2907

私信关注

猜你喜欢

转载自blog.csdn.net/Late_whale/article/details/103447707

pyspark程序从hdfs上读取数据求其TopN，并将结果存回hdfs

idea编写mapreduceTopN程序,运用hdfs上的数据测试并将结果存到hdfs

pyspark 向HDFS存json

集群上如何跑pyspark程序--Running Spark Python Applications

使用 Pandera 的 PySpark 应用程序的数据验证

pyspark将本地数据转化为方便在hdfs上读取的分布式数据

Pyspark获取hdfs上多个文件

pyspark-hdfs数据操作函数介绍

八年老程序员教你读懂PySpark数据框（附实例）

pyspark读取Mysql数据

pyspark单词统计(python编写)文件在hdfs上

将应用程序提交到spark环境并将结果输出到hdfs

R语言中使用Python程序读取hdfs上的数据

pyspark数据准备

pySpark加载数据

使用PySpark处理数据

PySpark 数据操作

pyspark 数据的读取与保存；pyspark的dataframe转化与展示

利用pyspark 读取 S3上数据

如何在pyspark里引用上传到hdfs上的文件

PyCharm开发PySpark程序的配置和实例

PyCharm 开发pyspark 应用程序

远程运行pyspark程序报错的解决

python pyspark-submit 保存模型到hdfs（全网之最）

pyspark读取tidb数据库

PySpark处理数据并图表分析

pyspark 数据类型及转换

PySpark 数据操作（综合案例）

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

使用PySpark将ElasticSearch的数据写入第三方存储（hdfs、mysql、本地文件）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)