Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因 - 代码天地

Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因

其他 2019-01-29 17:11:19 阅读次数: 0

首先看没有map join的第2任务:

时间线如下

接着是对应id的算子计算时间表

Stage Id	Description	Submitted	Duration	Tasks: Succeeded/Total	Input	Output	Shuffle Read	Shuffle Write
13	collect at AreaTop3ProductRDD.java:353 +details	2019/01/29 11:19:02	59 ms	41/41			235.3 KB
12	mapToPair at AreaTop3ProductRDD.java:259 +details	2019/01/29 11:19:02	0.1 s	41/41			383.2 KB	235.3 KB
11	mapToPair at AreaTop3ProductRDD.java:251 +details	2019/01/29 11:19:02	95 ms	41/41			99.3 KB	246.2 KB
9	mapToPair at AreaTop3ProductRDD.java:230 +details	2019/01/29 11:19:01	0.5 s	41/41			767.7 KB	99.3 KB
8	mapToPair at AreaTop3ProductRDD.java:128 +details	2019/01/29 11:19:01	0.5 s	41/41				752.0 KB
7	mapToPair at AreaTop3ProductRDD.java:164 +details	2019/01/29 11:19:01	0.3 s	1/1				15.7 KB
10	mapToPair at AreaTop3ProductRDD.java:248 +details	2019/01/29 11:19:01	0.5 s	41/41				137.0 KB

城市区域表(对应id 10)和商品列表(对应id 7)的数据量比较小，但在集群中的运行时间还是比较长的

不过因为是并行化运行，点击记录(对应id 8)的处理很快就完毕

并且id 9(把数据转换为key是区域+商品id，value是城市信息的组合)的运行时间也不长

在程序只是简单转换为RDD的情况下也能发挥优化效果

相比上述程序，speedUp版程序执行效率没有多大提升。

时间线如下

时间表如下

Stage Id	Description	Submitted	Duration	Tasks: Succeeded/Total	Input	Output	Shuffle Read	Shuffle Write
17	collect at AreaTop3ProductRDDSpeedUp.java:371 +details	2019/01/29 11:19:03	53 ms	41/41			246.7 KB
16	mapToPair at AreaTop3ProductRDDSpeedUp.java:284 +details	2019/01/29 11:19:03	0.1 s	41/41			475.6 KB	246.7 KB
15	mapToPair at AreaTop3ProductRDDSpeedUp.java:218 +details	2019/01/29 11:19:02	0.6 s	41/41				475.9 KB

把城市区域表和商品列表转换为broadcast大变量，给id 15的算子进行map join的做法反而增加了driver的计算量，并且由于被统一到一个算子中运算，丢失了并行化的优势

像12月那次的调试，还出现了优化后运行时间倒挂的情况，就是id 15的运行时间拖慢了(map join用的HashMap，不知道是不是这个原因)

算上job id 2的运行时间(才28ms...)speedUp的运行时间比不带speedUp的短了20%

另外由于只有3台,数据倾斜造成的运算拖慢很难表现出来，此处就不演示均衡数据优化了

猜你喜欢

转载自www.cnblogs.com/dgutfly/p/10334740.html

Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因

Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果

Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响

GAN不稳定原因

八大排序2——不稳定排序

Spark大型电商项目实战简介

Jenkins构建项目的时候出现构建不稳定异常UNSTABLE

GDKOI 2016 T2 不稳定的传送门

wifi不稳定

不稳定排序

网站排名不稳定的原因有那些？

新站排名不稳定的原因及解决方法

服务器出现不稳定的原因

NB模组TCP连接不稳定原因及使用详解

分析acc/loss上下波动不稳定的原因？

稳定币“不稳定”

实战：ros机器人运行不稳定，也许是use_sim_time没有设置对

【Spark】基于Spark的大型电商网站交互式行为分析系统项目实战

稳定排序和不稳定排序

稳定排序与不稳定排序

稳定排序与不稳定排序方法

稳定排序与不稳定排序的定义

稳定排序与不稳定排序的区别

不稳定的算法“稳定币”

【IoT】产品设计之 BLE 蓝牙连接不稳定的原因和处理方法

抖音流量突然降低怎么回事？流量不稳定什么原因？

香港服务器速度不稳定的原因有哪些

高效不稳定排序-快速排序

jboss数据池不稳定问题

java Socket输出不稳定问题

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)