Spark SQL处理小文件 - 代码天地

Spark SQL处理小文件

其他 2020-03-09 19:13:31 阅读次数: 0

生产环境DataNode仅有7个，每个datanode文件数阈值50w块，
也就是说整个集群共能容纳7 * 50w=350w / 3个副本 =120w块！
有张表按照年月日分区=10年12月365天=4.4w块，仅能存25张此表。
正常情况下分布：
10000块 * 20张、
1000块 * 200张、
100块 * 2000张、
10块 * 20000张、
实际生产中会产生很多小文件，占用集群资源，为此很头疼，必须妥善处理，方法如下：
在这里插入图片描述
方法一使用repartition（spark2.4之后）

spark.sql("create table table1 as select /*+ REPARTITION(4) */ * from table_1 where age >18 ")

方法二使用hive默认合并方式（配置并行度）

insert overwrite table table_1 select * from table_1;
#分区表
insert overwrite table table_1 partition (day_time='2018-09-01') select * from table_1 where day_time = '2019-08-01';

根据实际情况：
1亿条数据量大约40G（年数据量），按照目前集群性能：
repartition(4)需要25min左右
repartition(10)需要10min左右
假如采用 repartition(4)方式，某个workflow共生成3个宽表计算的话需要额外花费25 * 3=75min
假如采用 repartition(10)方式，某个workflow共生成3个宽表计算的话需要额外花费10 * 3=30min
也就是说通过repartition的形式减少小文件并不理想，实际还是需要写程序单独处理小文件个数。然后定时任务1个月执行1次！！！

lhxsir

发布了118 篇原创文章 · 获赞 25 · 访问量 15万+

私信关注

猜你喜欢

转载自blog.csdn.net/lhxsir/article/details/99588064

Spark SQL处理小文件

spark 处理小文件问题

Hadoop、Spark处理小文件

spark小文件过多

针对小文件的spark wholeTextFiles()

Spark合并输出小文件

如何避免Spark SQL做数据导入时产生大量小文件

集群小文件太多问题（spark-sql优化）

使用Spark SQL合并小文件的一个例子

使用COALESCE和REPARTITION解决SPARK SQL（hadoop）小文件过多的问题

spark小文件合并解决多级分区

Spark定期合并Hive表小文件

spark笔记-spark sql

spark 导入文件到hive出现多小文件的问题

python spark中parquet文件写到hdfs，同时避免太多的小文件（block小文件合并）

Spark 重分区coalesce和repartition,合并小文件

小文件有什么危害？（hive、spark到hdfs）

hive on spark 动态解决小文件太多的办法

Spark优化之小文件是否需要合并?

Spark SQL

Spark SQL和特征处理

Hive on Spark 与Spark SQL比较

Spark之spark.sql

Spark基础：（六）Spark SQL

Spark 04 Spark SQL 使用

spark基础六 spark SQL

Spark 03 Spark SQL 概述

Spark-Spark SQL and DataFrame

Spark SQL与Hive on Spark的比较

Spark学习之Spark SQL

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)