spark常用的调参详解 - 代码天地

spark常用的调参详解

其他 2019-01-09 23:18:01 阅读次数: 0

1.在submit中设置

在submit中设置注意后面的 \

--conf "spark.shuffle.blockTransferService=nio" \ 大数据集shuffle的时候，节点之间传输数据时使用netty 改为nio
--conf "spark.debug.maxToStringFields=500" \     字段的字符串太长了
--conf "spark.sql.broadcastTimeout=1200" \    广播等待超时时间，单位秒
--conf "spark.executor.extraJavaOptions=-XX:-UseGCOverheadLimit" \  关闭限制GC的运行时间（默认启用）
--conf "spark.port.maxRetries=128" \    Spark任务都会绑定一个端口来显示WebUI，默认端口为4040，如果被占用则依次递增+1端口重试，重试次数由参数spark.port.maxRetries=16控制，默认重试16次后就放弃执行

2.在代码中设置

.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") //使用kryo序列化的类库
/*   .config("spark.shuffle.manager", "hash")//设置为hashShuffleManager
     .config("spark.shuffle.consolidateFiles", "true")//开启consolidate机制  这两个不能使用不知道怎么回事 */
.config("spark.default.parallelism", "50") //设置并行度 根据所使用的core来算  是core的3--5倍
.config("spark.shuffle.file.buffer", "64k") //设置map端内存缓冲区大小
.config("spark.reducer.maxSizeInFlight", "96M") //设置reduce端拉取数据的大小
.config("spark.shuffle.memoryFraction", "0.3") //reduce端聚合内存占比
.config("spark.shuffle.io.maxRetries", "6") //最多拉取次数

猜你喜欢

转载自blog.csdn.net/weixin_41804049/article/details/85329388

spark常用的调参详解

CX传参详解

Springboot传参详解

Spark调优详解

Linux Top命令参详解

多线程传参详解

Spark常用算子详解

C# WebApi 接口传参详解

python之函数-形参详解

vue中父子传参详解

Spark Streaming性能调优详解（转）

Spark Streaming性能调优详解

Spark调优工具--Sparklens详解

spark调优（二）-Apache Spark 内存管理详解

WebApi接口传参不再困惑：传参详解

WebApi 接口参数不再困惑：传参详解（转载）

WebApi 接口参数：传参详解和动态类dynamic

WebApi 接口参数不再困惑：传参详解

Python 的四种共享传参详解！

python函数的万能参数传参详解

Js函数的形参和实参详解

spark调优篇-spark on yarn web UI spark on yarn UI界面详解

一些常用的Spark SQL调优技巧

Spark Streaming详解----概述、基本概念、性能调优

spark 参数调优详解（持续更新中）

1.5.1.3 spark-submit命令参数详解与调优

漫谈大数据 - Spark SQL详解，参数调优

Spark 系列（四）—— RDD常用算子详解

Spark和Flink当中的常用算子详解

Spark调优 | Spark Streaming 调优

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)