Kylin查询性能优化之使用rowkeys排序列快速读取parquet文件、使用shardby列来裁剪parquet文件

企业开发 2023-08-06 13:15:20 阅读次数: 0

目录

1. 使用rowkeys排序列快速读取parquet文件
2. 使用shardby列来裁剪parquet文件
- 2.1 shardBy列的使用

1. 使用rowkeys排序列快速读取parquet文件

在进行cube的定义时，默认会有一个rowkeys排序列。这样cube构建时，每个cuboid的维度字段都会根据rowkeys排序列，进行数据的排序保存。这样在数据查询的时候就能很快的检索到数据了

在Cube Designer的Advanced Setting的Rowkeys部分，可以在ID区域拖拽进行rowkeys顺序的自定义，如下所示：

rowkeys

2. 使用shardby列来裁剪parquet文件

默认一个cube的一个segment的一个cuboid里面，会有多个parquet文件。如下所示：

多个parquet文件如果将一个列定义为shardBy列，则shardBy列不同的值会形成不同的parquet文件，这样查询的时候对shardBy列做条件过滤，就能直接跳过不必要的文件扫描

建议选择高基列(数据基本不重复或者均为唯一值的列)，并且会在多个cuboid中
出现的列作为shardBy列

目前在SQL查询中只支持以下过滤操作来裁剪parquet文件：Equality、
In、InSet、IsNull

2.1 shardBy列的使用

先将cube进行Disable，再进行Purge(会删除cube的元数据，但是HDFS上的数据不会删除)

最后进行Edit，在Cube Designer的Advanced Setting的Rowkeys部分，可以定义某些维度为shardBy列，如下所示：

shardBy列再次进行cube的构建即可

猜你喜欢

转载自blog.csdn.net/yy8623977/article/details/126055982

今日推荐

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

智能时代 | 合合信息Embedding模型荣获C-MTEB榜单第一

Ubuntu 24.04 LTS 正式“开放升级”

【送书福利-第四十四期】《深入Rust标准库》

开源日报 | Altman七宗罪；微软必应全球宕机；美国限制AI出口；淘汰VBScript；PostgreSQL 17

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

周排行

通知、自定义控件颜色

山东财经大学新生赛暨天梯赛选拔赛 C Retina

C#中String类的几个方法(IndexOf、LastIndexOf、Substring)

怎么把WPS文字自动替换直引号为弯引号？

《Spring实战》-第六章:渲染视图（表达式，标签库，模板）

ubuntu11.04安装apache,php,mysql

梦里Babel知多少（一）

python 中whl文件安装

UI设计师月薪大概是多少一般能工作到多少岁

Thinkpad Fn键与Ctrl键互换【不通过BIOS】

每日归档

更多

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)