【spark】示例：连接操作 - 代码天地

【spark】示例：连接操作

其他 2018-05-15 00:55:23 阅读次数: 0

我们有这样两个文件

任务：找出用户评分平均值大于4的电影。

我们看两个文件结果，第一个文件有电影的ID和名字，第二个文件有电影的ID和所有用户的评分

对于任务结果所需要的数据为电影ID，电影名字，平均评分。平均评分用所有用户评分总和/用户数来求出

1.我们先计算电影的评分

（1）先读取电影评分文件

（2）取数据

我们看到每行的数据是通过：：来进行连接的，然后我们需要的是第二列的电影ID以及第二列的评分。

我们把两个有用的数据取出来，组成键值对的形式。

扫描二维码关注公众号，回复： 853788 查看本文章

为什么要组成键值对的形式？

数据中每个用户的对电影的评分都是分开的，所以我们需要对电影ID进行分组操作，把所有评分分组。

之前示例中我们知道groupByKey能进行分组，同时还能把所有相同Key的数据组合成一个集合。

当我们把所有数据集合之后就很容易操作计算了。

所以我们把数据组合成为<电影ID，评分>这样的键值对的形式。

3.分组计算平均评分

我们看到我们分组之后，所有相同电影的不同用户的评分都被收集到了一个集合中。

那么如何计算平均评分呢？评分总分 / 评分个数 = 平均评分

Scala集合提供了sum方法来可以计算集合总和，提供了size方法来计算数据条数。

正好不用我们额外去求了，如果集合没有定义方法，我们也可以遍历后计算得出要求的值。

2.在取电影ID和电影名

我们查看数据结构，数据是通过：：连接的，对我们有用的数据为第一列电影ID和第二列电影名称

3.通过电影ID连接

我们把我们所有需要的数据都取出来了，接下来进行连接就可以了。

但是，我们连接需要把电影ID作为连接的key。

我们需要的结果为(ID,NAME,SCORE)

如果我们直接对id进行连接的话，我们连接出来的结果只有(NAME,SCORE)缺少了ID

所以我们需要再次对数据进行处理，我们通过.keyBy()方法新生成一个key，同时value为原始的数据

然后我们再进行连接操作，注意join连接操作是内链接，

连接后的key是连接键，value为所有相同key的集合，可以通过 _2._x 来进行访问

4.过滤求出平均评分大于4的记录

猜你喜欢

转载自www.cnblogs.com/zzhangyuhang/p/9038689.html

【spark】示例：连接操作

【Spark】Spark SQL 连接操作 Mysql

Spark复习七：Spark 连接并操作Mysql

二、spark SQL交互scala操作示例

【技术干货】代码示例：使用 Apache Spark 连接 TDengine

FineReport连接多维数据库示例及操作

java客户端连接操作Hbase示例代码

golang连接mysql操作示例增删改查

【GO】连接mysql操作示例增删改查

linux下连接mysql数据库的操作示例PvL

RxSwift官方使用示例之<可连接操作符>

JDBC连接GaussDB云数据库操作示例

spark中各种连接操作以及实用方法

Spark基础（五）——连接操作（思维导图）

【spark】示例：求极值

Spark保持HDFS示例

Spark SQL UDF示例

Spark 各种示例

Spark Streaming示例（九）

【Spark】Spark基本操作

【Spark】Spark 访问连接 HIVE

Spark整合HDFS、WordCount示例

Spark SQL简单示例学习

【spark】示例：求Top值

十、spark graphx的scala示例

十二、spark MLlib的scala示例

Spark SQL简单示例(WordCount)

Spark Streaming 简单示例(WordCount)

Spark Streaming消费kafka示例

Apache Spark JavaAPI WordCount示例

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)