Spark性能优化第二季

其他 2018-08-28 00:47:43 阅读次数: 0

Spark性能优化第二季

1、Task性能优化
2、数据倾斜性能优化
3、网络性能优化

一、Task性能优化
1、慢任务的性能优化：可以考虑每个Partition处理的数据量，同时建议开启spark.speculation，开启任务推测，在任务还没有完成的情况下开启相同的任务，谁先执行完就执行它。
2、尽量减少Shuffle，例如我们要尽量减少groupByKey的操作，因为groupByKey会要求通过网络拷贝（Shuffle）所有的数据，优先考虑使用reduceByKey，因为reduceByKey会首先reduce locally，再例如在进行join操作的时候，形如（K1，V1）和（K1，V2）=>（K1，V3）此时就可以再进行pipeline，但是（o1） join （o2）=> （o3），此时会产生Shuffle操作；
3、Repartition：增加Task数量的时候可以考虑使用，从而更加充分使用计算资源；
Coalesce：整理Partition碎片；
二、数据倾斜
1、定义更加合理的Key（或者说自定义Partitioner）；
2、可以考虑使用ByteBuffer来存储Block，最大的存储数据为2G，如果超过这个大小会报异常；
三、网络
1、可以考虑Shuffle的数据放在Tachyon中带来更好的数据本地性，减少网络的Shuffle；
2、优先采用Netty的方式进行网络通信
3、广播：例如进行Join操作的时候采用Broadcast可以达到完全的数据本地性的情况下进行Join操作
4、mapPartitions中的函数会直接作用于整个Partition（一次！）
5、最优先考虑是PROCESS_LOCAL（spark默认情况下这样做），所以更应该考虑使用Tachyon；
6、如果要访问HBase或者Canssandra，务必保证数据处理发生在数据所在的机器上。

猜你喜欢

转载自blog.csdn.net/qq_35394891/article/details/82086375

Spark性能优化第二季

Java 基础（第二季）

vue学习第二季

vue 第二季

Java入门第二季

第二季明文封包教程

sql语句学习（第二季

JAVA入门第二季学习总结

JAVA基础知识第二季

第二季第三集

第二季-专题0-课程规划

第二季第九天

第二季第八天

第二季第十天

第二季第七天

lim技术第二季--rpc框架--13

lim技术第二季--网关--21

Delphi视频教程第二季

《原力计划【第二季】》—— 第二周周榜

【涵子来信&python大全】——第二季——opencv第二篇

UniRx第二季学习[linq与UniRx](二) ------ First/Distinct/Last

中华好诗词大学季第二季（二）

斗破苍穹第二季百度云高清下载

安全基础教育第二季第1集：屡战屡败的找回密码

给"舌尖上的中国第二季＂挂面的做法补遗修正，想起妈妈

《开讲啦》第二季俞敏洪：相信奋斗的力量

ThinkPHP5.0正式版第二季：实战开发企业站【完结】

RealPlayer瑞网青年计划第二季获奖名单公布

Java语言学习-打造网络直播间-第二季

Rancher 免费视频培训-链接及内容-第二季

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)