Hadoop系列之-Hbase数据设计问题 - 代码天地

Hadoop系列之-Hbase数据设计问题

其他 2018-12-29 14:52:31 阅读次数: 0

Hadoop系列之-Hbase数据设计问题

Hbase是一个基于HDFS，可通过MapReduce计算的分布式列式数据库，每行数据都有一个rowKey作为当前数据的唯一Sign，当然，也可通过Column Family将列进行分组。
在这里插入图片描述
那么既然是一个分布式数据库，Hbase的表可以进行分区，Table在行的方向上可分割为多个Region，一个Region由[startkey，endkey]标识，每个HRegion分散在不同的RegionServer中。

Hbase的分区方式有两种，热分区和预分区: 热分区，热分区就是当一个RegionServer认为某张表数据量过大不得不分区时，会寻找一个midkey将region一分为二，这个过程称为分裂(region-split); 预分区，在建表是提前将Region的规则明确，那么数据添加时会直接根据rowkey和预定义的规则将数据插入到不同的Region中

很显然，热分区会造成数据倾斜、热点写、分裂频率随数据迅速增长等缺陷，那么预分区非常完美的解决了以上问题，但是这也引发了一个很严重的问题，就是数据不连贯。

笔者在开发中的一个非常棘手的问题：: rowkey设计为 3050:650212#9852315625256(列号:车号:时间戳); 这种设计的结果就是预分区时根据列号进行分割，即每一个列车的数据都有独立的分区，那么假如我们需要通过对时间排序进行数据查询，就只能在同一列号下的数据进行查询。或者建立二级索引，但通过二级索引的查询网络IO是个问题，其实就是HDFS block的切换问题。

猜你喜欢

转载自blog.csdn.net/weixin_37481769/article/details/84972868

Hadoop系列之-Hbase数据设计问题

hbase系列-Hbase热点问题、数据倾斜和rowkey的散列设计

spring hadoop系列（五）---spring hadoop hbase之HbaseSynchronizationManager

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解

Hadoop+Hbase集群数据迁移问题

hadoop之hbase数据分页查询

Hadoop之Hbase数据库

大数据系列之数据库Hbase知识整理（九）RowKey的设计规范,Hbase协处理器

Hadoop HBase概念学习系列之物理视图

大数据系列的默认端口（hbase，hadoop，hived等）

Hadoop大数据开发基础系列：十、HBase

大数据学习系列之—HBASE

大数据面试系列之——Hbase

Hadoop之HBase

Hadoop 之Hbase篇

Hadoop 之关于 HBase

Hadoop之Hbase详解

【HBase】HBase 数据倾斜、热点问题以及RowKey设计

大数据之Hbase（五）：HBase表设计、特点及需要考虑的问题、HBase表设计案例: 社交应用互粉信息表

hbase系列之：初识hbase

spring hadoop系列(四) --- spring hadoop hbase

2020大数据最新Hadoop之Hbase教程

大数据与Hadoop系列之压缩（二）

大数据与Hadoop系列之压缩(一)

大数据系列之Hadoop框架

大数据面试系列之——Hadoop

Hadoop系列之HDFS 数据块(12)

HBase RowLock系列问题

大数据调错系列之：自己总结的myeclipse连接hadoop会出现的问题

大数据与Hadoop系列之Hadoop版本认知与架构

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)