ORC 查询流程 - 代码天地

ORC 查询流程

其他 2020-09-25 10:06:18 阅读次数: 0

ORC 文件格式

ORC 文件分成多个 Stripe，Stripe 里又分为多个 RowGroup，每个 RowGroup 包含文件中的所有列的一部分数据，每个 RowGroup 默认有 10000 行元组。查询时只在 RowGroup 层做过滤，检查各个列中是否可能存在结果。十分粗粒度，不能保证读出来的每一行都满足条件。

ORC 读取流程

OrcFile.createReader() 时读取文件的 Footer 和 Metadata 信息，记录文件中的 Stripe，每个 Stripe 是包含所有列的一部分数据段。是 Orc 文件的最大的粒度。

创建一个 VectorizedRowBatch，这个东西主要负责存放查出来的数据。查询的schema里有几列，VectorizedRowBatch 中就有几列，每一列是原始数据类型的数组，默认长度 1024。
创建 RecordReaderImpl 对象，用来读数据，同时构造过滤器 SargApplier，创造 DataReader。
读取第一行满足要求的数据。RecordReaderImpl.advanceToNextRow()，读第一个 Stripe
读 Stripe 的流程: RecordReaderImpl.beginReadStripe()
- 读 StripeInformation，包括 Stripe Footer
- 对 Stripe 内的每一个 RowGroup 进行过滤: RecordReaderImpl.pickRowGroups()，生成一个 includedRowGroups。根据这个东西构造出需要读的数据的位置，并且把涉及到的数据的原始字节数组都读出来。
填充 batch: TreeReaderFactory.nextBatch()
- 最后还是要根据读出来的 RowGroup 填充 batch，batch是原始数据类型的数组，没有封装，很高效。

小坑

如果一个 batch 有两列，第一列是递增的1-100，第二列也是递增的1-100，查询过滤条件第一列 < 50 and 第二列 > 60，这个 batch 也会读出来。

猜你喜欢

转载自blog.csdn.net/qiaojialin/article/details/90300293

ORC 查询流程

ORC Files

ORC CRNN

Hive的几种常见压缩格式（ORC，Parquet，Sequencefile，RCfile，Avro）的读写查询性能测试

tesseract-ORC安装

【Apache 之ORC 介绍】

ORC图像识别

ORC File 翻译

MapReduce读写ORC文件

ORC 文件存储格式

ORC文件存储格式

django ORC模型

ORC File 文件格式

orc 算法笔记

来！瞎掰掰orc

Apache ORC 整理

Hive中创建orc表，插入orc表

mapreduce 实现写出orc文件

百度 ORC识别

Difference between orc and parquet format

ORC格式文件读取

语言手册ORC

ORC 文件层 API 读写

MapReduce - 读取 ORC, RcFile 文件

Hive使用ORC格式存储离线表

大数据：Hive - ORC 文件存储格式

Hive ORC file 数据插入报错

Hive:ORC File Format存储格式详解

Hive - ORC 文件存储格式【转】

Parquet与ORC：高性能列式存储格式

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)