Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响 - 代码天地

Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响

其他 2019-01-30 12:11:24 阅读次数: 0

之前的运行数据被清除了,只能再运行一次,对比一下sparkSQL语句的影响

纯SQL的时间

对应时间表

Stage Id	Description	Submitted	Duration	Tasks: Succeeded/Total	Input	Output	Shuffle Read	Shuffle Write
24	collect at AreaTop3ProductSql.java:99	2019/01/30 10:26:49	0.6 s	200/200			867.8 KB
23	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:47	2 s	200/200			891.7 KB	869.4 KB
21	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:46	1 s	200/200			224.1 KB	733.2 KB
20	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:46	0.5 s	200/200			406.5 KB	224.3 KB
22	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:45	0.6 s	41/41				159.9 KB
19	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:45	0.2 s	1/1				4.0 KB
18	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:45	0.8 s	41/41 (1 failed)				402.6 KB

以码云的com.ibeifeng.sparkproject.spark.product.AreaTop3ProductSql代码为参考,根据数据量和执行先后可大概发现算子和sql语句的对应关系

这里可以看到，代码只有5次sparksql执行，但是对应算子却有6个

从上节对AreaTop3ProductRDD的分析可以看到，sparkSQL也是以map-reduce作为一次计算的单位

id 22对应161行的createDataFrame，因为商品信息是在倒数第2次dataframe操作时才被join，并且此算子运行结束与否不影响id 20的运行

id 18对应189行的sql操作（第1阶段，reduce join之前要对此表map）

id 19对应128行的load操作（为什么18和19是这种顺序,仔细看时间长度就知道，城市数据和session访问数据不在同一数量级）

id 20对应189行的sql操作（第2阶段，reduce join之后还要map一次）

id 21对应214行的sql操作

id 24对应304行的sql操作（这里有些想不通，对应的sql语句要先group再select，那样应该先reduce再map，前面的sql操作也有join，难道说是因为join的表太小被map join了？）

与未深度优化的RDD程序相比，sparkSQL的运行效率低很多，并且还容易爆too many files错误

那么为什么sparkSQL还能被这么广泛使用呢？emmmm

猜你喜欢

转载自www.cnblogs.com/dgutfly/p/10337433.html

Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响

Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果

【Spark】基于Spark的大型电商网站交互式行为分析系统项目实战

Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因

1.Spark大型电商项目-电商用户行为分析简介

13.Spark大型电商项目-用户访问session分析-需求分析

11.Spark大型电商项目-用户访问session分析-模块介绍

15.Spark大型电商项目-用户访问session分析-数据表设计

14.Spark大型电商项目-用户访问session分析-技术方案设计

24.Spark大型电商项目-用户访问session分析-JavaBean概念讲解

22-23.Spark大型电商项目-用户访问session分析-开发JDBC辅助组件

20.Spark大型电商项目-用户访问session分析-单例设计模式

88（1）.Spark大型电商项目-用户访问session分析-模块总结

Spark大型电商项目实战简介

28.Spark大型电商项目-用户访问session分析-Spark上下文构建以及模拟数据生成

Spark大型项目实战：电商用户行为分析大数据平台

121.Spark大型电商项目-广告点击流量实时统计-对实时计算程序进行性能调优

37.Spark大型电商项目-用户访问session分析-session随机抽取之实现思路分析

19.Spark大型电商项目-用户访问session分析-数据库连接池原理

18.Spark大型电商项目-用户访问session分析-JDBC原理介绍以及增删改查示范

16.Spark大型电商项目-用户访问session分析-Idea工程搭建以及工具类说明_

17.Spark大型电商项目-用户访问session分析-开发配置管理组件

27.Spark大型电商项目-用户访问session分析-JSON数据格式讲解以及fastjson介绍

26.Spark大型电商项目-用户访问session分析-工厂模式讲解以及DAOFactory开发

25.Spark大型电商项目-用户访问session分析-DAO模式讲解以及TaskDAO开发

21.Spark大型电商项目-用户访问session分析-内部类以及匿名内部类

42.Spark大型电商项目-用户访问session分析-session随机抽取之本地测试

35.Spark大型电商项目-用户访问session分析-session聚合统计之本地测试

34.Spark大型电商项目-用户访问session分析-session聚合统计之计算统计结果并写入MySQL

31.Spark大型电商项目-用户访问session分析-session聚合统计之自定义Accumulator

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)