hbase实践之数据读取详解 - 代码天地

hbase实践之数据读取详解

其他 2018-11-25 20:47:29 阅读次数: 0

hbase基本存储组织结构与数据读取组织结构对比

Segment是Hbase2.0的概念，MemStore由一个可写的Segment，以及一个或多个不可写的Segments构成。故hbase 1.*版本中的MemstoreScanner变成了SegmentScanner。

对应关系表

Hbase存储结构	Hbase Scanner体系
Region	RegionScanner
Store	StoreScanner
Memstore	SegmentScanner(memstore级别)
Storefile	StorefileScanner

hbase scanner体系与hbase存储组织结构是一一对应的。

hbase写入数据的特点

flush 写磁盘时，不同ColumnFamily生成不同Hfile。
数据采用追加方式写入，在major compaction才发生数据删除或失效。数据的多个版本都会记录在hfile，数据删除也会生成一条记录，只是keytype标记为delete。

数据读取过程详解

数据真正的读取过程只发生在StorefileScanner，其他scanner只是帮助缩小查找范围，类似于多级索引体系。

storefilescanner的读取抽象过程如图所示：

组织priorityqueue: 将包含rowkey的hfile文件组织成一个最小堆。最小堆的第一个元素一般是Memstore，从SegmentScanner(MemstoreScanner)开始。
根据过滤条件：Rowkey、ColumnFamily、Column等，从当前Scanner依次读取cell（keyvalue）数据；
当前Scanner数据扫描结束，扫描下一个Scanner,当前Scanner放到堆尾。

StoreFileScanner中的数据读取细节

要想知道读取细节，首先需要了解HFile的结构：

数据根据索引Root Index Block、Leaf Index Block，定位DataBlock。在64k大小的DataBlock中，可以根据二分查找等算法，定位到数据。

参考文献

猜你喜欢

转载自www.cnblogs.com/small-k/p/10017019.html

hbase实践之数据读取详解

spark读取hbase数据

Hive读取hbase数据

SparkSQL读取HBase数据

hbase读取数据原理

Hbase读取数据

Spark 读取 HBase 数据

php通过thrift读取hbase数据之scanner学习

Spark之读取Hbase数据库表并写入文件

大数据之hbase的写数据过程详解

hbase之RPC详解

hbase之原理详解

Hadoop之Hbase详解

hive 读取查询 hbase 数据

使用hive读取hbase数据

HBase数据读取流程解析

spark从hbase读取写入数据

Hbase数据读取与写入过程

hbase实践之rowkey设计

hbase实践之HFile结构

hbase实践之flush and compaction

HADOOP实践之写HBASE

HBase最佳实践之Scan

[HBase进阶]--HBase最佳实践之HBase查询优化

OpenTSDB源码详解之写入数据到HBase

spark将数据写入hbase以及从hbase读取数据

大数据之HBase

HBase 表数据读取解析之一个需求学习 HBaseAPI

转：HBase之HFile详解

hbase 从hdfs上读取数据到hbase中

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)