关于Spark中的常见问题及解决方法(3) —— Aggregations操作 - 代码天地

关于Spark中的常见问题及解决方法(3) —— Aggregations操作

其他 2019-03-30 10:48:01 阅读次数: 0

前言

如果你程序中的聚合速度较慢，请先查看 Spark Stragglers/任务执行缓慢部分。

主要症状

在执行 groupby 操作时，任务执行缓慢
聚合操作的后序操作也很缓慢

可能的原因

这类问题并没有固定的解决方法。有时候，由于作业中的数据有一些偏斜的键(即数据倾斜)，导致作业执行缓慢。

可能的解决方法

在聚合之前增加分区数量可能有助于减少每个任务中处理的不同键的数量。
增加Executor的内存也可以帮助缓解这个问题。如果键有大量数据，这将允许Executor尽量在内存内进行计算而避免溢出到磁盘。
如果聚合之后的任务也很慢，这意味着聚合后的数据集可能仍然不平衡。尝试插入重新分区调用以随机分区。
在聚合操作之前使用SELECT等操作过滤选出需要处理的数据，避免处理无关的数据。 Spark的查询优化器将自动为结构化API执行此操作。
确保数据中的空值被正确表示（使用Spark的null概念）而不是像”“或”EMPTY“那样的默认值。 Spark通常会尽可能优化，在作业早期跳过空值，但对于其他自定义的占位符值，并没有这样的优化机制
有些聚合函数本身也比其他函数慢。例如，collect_list 和 collect_set 是非常慢的聚合函数，因为它们必须将所有匹配的对象返回给驱动程序，应该在性能关键代码中避免使用。

参考资料

[[BOOK]]Spark - The Definitive Guide](http://shop.oreilly.com/product/0636920034957.do)

猜你喜欢

转载自www.cnblogs.com/lestatzhang/p/10625486.html

关于Spark中的常见问题及解决方法(3) —— Aggregations操作

【JAVA】云HIS系统使用和操作过程中的常见问题及解决方法

mysql导入表格，txt操作（以及常见问题解决方法）

关于Spark中的常见问题及解决方法(5) ——Driver OutOfMemoryError或Driver Unresponsive

【精】云HIS系统操作过程中常见问题及解决方法

Python中的文件I/O操作：常见问题与解决方案

Hadoop 操作常见问题解决

程序调试中的常见问题及解决方法

CodeGeeX使用中的常见问题与解决方法

Subilme Text3中常见问题以及其解决方法

面试中操作系统常见问题总结

Java操作Hive中的常见问题

VectorDraw常见问题整理：如何解决操作过程中的小问题？

Windows操作系统下本地跑Spark常见问题总结

mysql的常见问题和操作

Android 键盘操作常见问题

CocoaPods操作常见问题

Repo操作及常见问题

操作系统常见问题

github常见问题与操作（待续）

【操作系统】常见问题

untiy webgl常见问题与操作

关于echarts的一些常见问题及解决方法

关于Python在安装库(pip install xxx)时的常见问题以及解决方法

Emoji的编码以及常见问题的解决方法

ionic常见问题及解决方法

Hadoop使用常见问题以及解决方法

常见问题解决方法

WMI常见问题及解决方法

IIS_常见问题及解决方法

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)