Spark SQL项目中的优化思路 - 代码天地

Spark SQL项目中的优化思路

其他 2018-06-30 06:53:43 阅读次数: 2

存储格式的选择：

采取行式还是列式存储？

列存储写入时次数多，损耗时间多

反过来查询的时候较快

压缩格式的选择：

考虑压缩速度和压缩文件的分割性

压缩能够较少存储空间、提高数据传输速度

Spark中默认的压缩格式是“snappy”

代码的优化：

选择的高性能的算子：

foreachPartition => partitionOfRecords.foreach 获得每一条数据

分区的好处是把partition所有的数据先保存到list当中去，然后我们在插入MySQL的时候就可以结合pstmt的批处理，一次过把整个分区数据写进去

复用已有的数据：

在项目中，如果同时实现多个功能（本例中就是有三个），在计算时观察每个功能间是否有重叠产生的数据，若有的话把相应的数据提取出来生成，所有的功能实现都能共用（相当于做一个缓存，把中间数据cache ）

参数的优化：

并行度：spark.sql.shuffle.partitions

默认的是200，配置的是partitions的数量，对应了task的数量

若觉得运行得太慢，则需要吧这个值调大

在conf里面改（YARN启动时）

分区字段类型推测：spark.sql.sources.partitionColumnTypeInference.enabled

默认为开启，若开启之后系统就会自动推测分区字段的类型

关闭后能提升性能

猜你喜欢

转载自blog.csdn.net/shujuelin/article/details/80679871

Spark SQL项目中的优化思路

spark优化思路

【Spark】Spark优化

Spark sql优化

spark笔记-spark sql

【Spark】Spark SQL写入Mysql优化

spark SQL项目应用

spark优化

Spark SQL

spark笔记-spark性能优化

[Spark]Spark常用的优化方法

spark--Spark性能优化

Spark SQL之Join优化

spark-sql配置并优化

Spark SQL之性能优化

spark-sql性能优化

Hive on Spark 与Spark SQL比较

Spark之spark.sql

Spark基础：（六）Spark SQL

Spark 04 Spark SQL 使用

Spark 03 Spark SQL 概述

spark基础六 spark SQL

Spark-Spark SQL and DataFrame

Spark SQL与Hive on Spark的比较

Spark学习之Spark SQL

Spark学习笔记：Spark SQL

spark笔记之Spark SQL

Spark -- Spark SQL初体验

【Spark】Spark Web UI - SQL

[Spark][spark_streaming]#5_spark_streaming&spark_sql

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)