Spark SQL优化流程（解决集群OOM问题） - 代码天地

Spark SQL优化流程（解决集群OOM问题）

编程语言 2018-11-30 12:58:33 阅读次数: 0

根据七张基础业务表，生成大宽表

tt_sales_order		1826 7673  	大 ord
tt_deposit_order	56 0368  	小 dep
tt_vehicle_action	236 5624 	中 vac
tt_pipeline_pool	1000 0000  	大 pol
tt_vehicle_resource	53 9059  	小 vre
tt_dealer_resource	1000 0000  	大 dre
tt_dealer_retail_order	1602 3564  	大 ret

直接join报错OOM
分步骤操作：

OrderSales_ordtwoyears
OrderSales_ord_dep_one
OrderSales_ord_dep_two
OrderSales_ord_vac_dep
OrderSales_pol_vre
OrderSales_dre_ret

第一步：where ord
筛选两年内数据，并mark_for_delete = ‘0’
第二步：ord left outer join dep
经研究发生数据倾斜，主要原因是BRAND_ID字段只有100和200两个状态
(先处理 BRAND_ID = 100)
第三步：ord left outer join dep
经研究发生数据倾斜，主要原因是BRAND_ID字段只有100和200两个状态
(再处理 BRAND_ID = 200)
第四步：ord_dep left outer join vac
第五步：ord_dep_vac left outer join pol_vre
第六步：ord_dep_vac_pol_vre left outer join dre_ret

问题一：某个字段有/n导致与hive换行符冲突

regexp_replace(dep.cust_name, '\n|\t|\r', '')

问题二：join不上的数据显示为NULL

采用parquet存储格式，把NULL自动转换成空字符

问题三：业务逻辑不熟

猜你喜欢

转载自blog.csdn.net/lhxsir/article/details/84645699

Spark SQL优化流程（解决集群OOM问题）

Spark面对OOM问题的解决方法及优化总结

Spark性能优化【OOM】

解决Spark OOM

spark-spark集群

【Spark】Spark优化

spark笔记-spark sql

Spark集群的运行流程

spark集群启动流程

spark 集群优化

spark sql 执行流程

Spark sql优化

spark优化

Spark集群遇到的问题

Spark SQL

【Spark】Spark SQL写入Mysql优化

[spark]在集群上运行spark

Spark-在集群运行spark

Spark集群中使用spark。

spark笔记-spark性能优化

[Spark]Spark常用的优化方法

spark--Spark性能优化

Hive on Spark 与Spark SQL比较

Spark之spark.sql

Spark基础：（六）Spark SQL

Spark 03 Spark SQL 概述

Spark 04 Spark SQL 使用

spark基础六 spark SQL

Spark-Spark SQL and DataFrame

Spark SQL与Hive on Spark的比较

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)