spark 二次排序两种方法（scala） - 代码天地

spark 二次排序两种方法（scala）

其他 2019-03-27 10:31:25 阅读次数: 0

排序数据：

aa 34
bb 24
cc 83
aa 53
cc 12
aa 47
bb 35
aa 21
cc 64
bb 73
第一种方法是用spark中的sortBy方法：

首先将数据处理成（“aa”，34）的格式；

然后使用sortBy算子进行排序；

/**
* 二次排序使用sortBy
*/
rdd.map(a => (a.split(" ")(0),a.split(" ")(1).toInt)).sortBy(x=>x,false).foreach(println)

第二种方法是用spark中的sortByKey方法：

因为sortByKey方法是按照key值排序，所以需要构建特殊的key值类：

class SortClass(val x :String,val y:Int) extends Serializable with Ordered[SortClass]{
override def compare(that: SortClass): Int = {
if(!this.x.equals(that.x)){
this.x.hashCode - that.x.hashCode
}
else {
this.y - that.y
}
}
}
注意：该类在shuffle中是需要序列化传输的，所以要继承Serializable接口，不然会报错。

构建好key值类后，就可以使用sortByKey来排序了；

最后排序完以后，将排序用的key值去除掉；

rdd.map(a => (new SortClass(a.split(" ")(0),a.split(" ")(1).toInt),a)).sortByKey()
.map(a => a._2)

原文：https://blog.csdn.net/zhaochengxuyuan1/article/details/79683298

猜你喜欢

转载自blog.csdn.net/maenlai0086/article/details/88419329

spark 二次排序两种方法（scala）

Spark基础排序+二次排序（java+scala）

spark 二次排序

Spark：高级排序（二次排序）

Spark的高级排序（二次排序）

spark操作hbase的两种方法

Spark二次排序(java)

【spark】示例：二次排序

hadoop/spark 二次排序

spark：sortByKey实现二次排序

数据算法——Spark二次排序

Spark中实现二次排序

Spark 高级编程（二）：二次排序

Spark求统计量的两种方法

Spark SQL中列转行（UNPIVOT）的两种方法

Spark 从RDD 到DataFrme 的两种方法, Get 打卡

Spark连接Hbase并写入数据的两种方法

spark自定义二次排序

【Spark】(二) Spark Core

spark资源调度整合任务调度 spark-shuffer及调优 spark分组排序二次排序

scala spark

Spark & Scala：

scala in spark

spark的scala

Spark（6）——Spark与scala交互

【Spark】Spark二：Spark RDD初步

Spark RDD高级编程：基于排序机制的wordcount程序+二次排序+topn

[Spark]Spark常用的优化方法

spark二次排序，两列数据第一列排，如果第一列相等，看第二列

spark的两种UDAF

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)