Kylin查询性能优化之减少小的或不均匀的parquet文件、将多个小文件读取到同一个分区

企业开发 2023-08-06 13:15:05 阅读次数: 0

目录

1. 减少小的或不均匀的parquet文件
- 1.1 配置参数
- 1.2 分区数量的计算规则
2. 将多个小文件读取到同一个分区

1. 减少小的或不均匀的parquet文件

在查询时读取太多小文件或几个太大的文件会导致性能低下，可以配置参数，让cube构建时，按照一定策略对parquet文件进行重分区，以减少小的或不均匀的parquet文件

1.1 配置参数

参数名	默认值	说明
kylin.storage.columnar.shard-size-mb	128MB	有shardby列的parquet文件最大大小
kylin.storage.columnar.shard-rowcount	2500000	没有bitmap时，每个parquet文件最多包含的行数
kylin.storage.columnar.shard-countdistinct-rowcount	1000000	有bitmap时，指定cuboid的bitmap大小
kylin.storage.columnar.repartition-threshold-size-mb	128MB	每个parquet文件的最大大小

1.2 分区数量的计算规则

需满足下面的条件之一，才会进行重分区：

如果这个cuboid有shardBy的列
parquet文件的平均大小 < 参数kylin.storage.columnar.repartition-threshold-size-mb的值，且parquet文件数量大于1。这种情况是为了避免小文件太多
parquet文件的数量 < (parquet文件的总行数 / kylin.storage.columnar.shard-rowcount * 0.75)，如果这个cuboid有精确去重的度量值，使用kylin.storage.columnar.shard-countdistinct-rowcount来代替。这种情况是为了避免不均匀的文件

分区数量的计算规则：
fileLengthRepartitionNum = Math.ceil(【parquet文件总大小MB】/ 【kylin.storage.columnar.shard-size-mb】)
rowCountRepartitionNum = Math.ceil(【parquet 文件总行数】/ 【kylin.storage.columnar.shard-rowcount】)
分区数量 = Math.ceil((【fileLengthRepartitionNum】+【rowCountRepartitionNum】) / 2)

2. 将多个小文件读取到同一个分区

当已经构建的segments中有很多小文件时，可以修改参数spark.sql.files.maxPartitionBytes(默认值为128MB)为合适的值，这样可以让spark 引擎将一些小文件读取到单个分区中，从而避免太多的小任务

如果有足够的资源，可以减少该参数的值来增加并行度，但需要同时减少spark.hadoop.parquet.block.size(默认值为128MB)的值，因为parquet文件的最小分割单元RowGroup由该参数确定

猜你喜欢

转载自blog.csdn.net/yy8623977/article/details/126057899

Kylin查询性能优化之减少小的或不均匀的parquet文件、将多个小文件读取到同一个分区

Kylin查询性能优化之使用rowkeys排序列快速读取parquet文件、使用shardby列来裁剪parquet文件

shell案例系列3-将多个文件写入到同一个文件

两（多个）个进程读取同一个Log文件

pandas读取excel并合并多个sheet到同一个文件中

将多个csv文件写入同一个excel中的不同sheet表中

pandas将多个dataframe输入到同一个文件的不同sheet中

Python将多个字典输出到同一个CSV文件中

多线程队列读取同一个文件

pandas to_excel多个文件输入到同一个excel的同一个sheet中

Linux下将一个文件压缩分包成多个小文件

python 按顺序读取同一个文件夹下的多图像文件

POI在同一个Excel文件中创建多个sheet页并分别命名

go同一个目录下的go文件里面不能有多个package

vim在同一个窗口中同时编辑多个文件

Python Pickle 在同一个文件中序列化多个对象

cmake学习2--同一个目录多个源文件

多个css文件在同一个html中的执行顺序2

MATLAB 在同一个m文件中写多个独立的功能函数

小程序：在同一个文件夹中配置多个页面

VS在同一个工程下存在多个 .c 文件就无法运行

VS：能否在同一个项目中运行多个包含main文件？

canal怎样实现多个rdb配置文件共用同一个instance

excel vbs 批量处理多个excel文件执行同一个宏

共享操作文件，同一进程共享相同的文件，多个进程（程序）共享操作同一个文件(文件IO)【linux】（g）

ActiveMQ多个消费者消费不均匀问题

【python】将多个excel表合并进同一个excel中的多个sheet

Python中，如何让多个py文件的logging输出到同一个日志log文件

【基础操作】ln多个源文件夹链接到同一个文件夹

require.context实现前端自动引入同一个文件夹下的多个文件

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)