Druid.IO简介系列之三：Datasource和segments - 代码天地

Druid.IO简介系列之三：Datasource和segments

其他 2019-03-07 09:41:11 阅读次数: 0

Druid的数据被保存在datasource里面， DataSource类似于关系型数据库中的table。所有的DataSource是按照时间来分片的，必要时也可以额外加上其他字段来分片。每个时间区间范围被称为一个chunk（比如当你的DataSource是按天来分片的，一天就是一个chunk）。在chunk内部，数据被进一步分片成一个或多个segment。所有的segment是一个单独的文件，通常一个segment会包含数百万行数据。segment和chunk的关系示意图如下：

一个DataSource可以有少数几个segment构成，也可能包含多达数十万甚至上百万个segment。所有的segment的生命周期从在MiddleManager接收导入数据时被创建，最初的时候，segment时处于可修改和未提交的状态，segment的数据是紧凑的并且支持快速查询，它是通过如下步骤被创建：

把数据转换成列式格式；
通过bitmap编码来建立倒排索引；
通过不同的算法进行压缩：
- 对于string类型的列，通过字典编码的方式将string转换为id以最小化存储空间；
- 对bitmap索引进行位图压缩；
- 所有的列都根据类型来选择合适的压缩算法；

segment会被定期提交和发布。提交时他们会被写入deepstorage中，提交后会变成不可写的状态，然后数据就被从MiddleManager移交给Historical进程。（参考架构介绍部分：https://blog.csdn.net/weixin_40735752/article/details/88218571）。segment的信息也会被写入到metadata store组件，这个信息包括segment的格式，大小，以及在deepstorage的存储位置。Coordinator通过这些信息来获悉哪些数据在集群中是可用的。

猜你喜欢

转载自blog.csdn.net/weixin_40735752/article/details/88284734

Druid.IO简介系列之三：Datasource和segments

Druid.io系列（一）：简介

Druid.io系列（三）： Druid集群节点

Druid.io系列（九）：数据摄入

Druid.io系列（七）：架构剖析

Druid.io系列（六）：问题总结

Druid.io系列（八）：部署

Druid.io系列（五）：查询过程

druid.io 优化

Druid.io系列（二）：基本概念与架构

Druid.io系列（四）：索引过程分析

druid.io 列式数据存储和简单分析 TODO

Druid：Druid.io 部署&使用文档

druid.io 去重计数

druid.io架构的个人理解学习

Druid.io 查询分时段指标

海量数据实时OLAP分析系统-Druid.io安装配置和体验

Druid.io通过NiFi摄取流数据

druid.io本地集群搭建 / 扩展集群搭建

druid.io kafka-Index-service.json任务

zookeeper 使用 curator (参考druid.io源码)

druid.io出现的问题及解决方法

IO系列之三：常用的情况

Hadoop集群版本必须和Druid.io中版本同一，可以通过pull-deps下载相同hadoop-dependencies版本,e.g. :

【SpringBoot】系列之三：org.springframework.jdbc.datasource.embedded.EmbeddedDatabaseType

IO模型之三Reactor 和 Proactor IO设计模式

Netty 系列笔记之三种 IO 模式

druid.io架构的个人理解学习 part1 part2 翻译

flink分析使用之三DataSource

Druid datasource

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)