基于minio的dababend部署总结

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

Minio搭建

minio 192.168.10.159

cd /data 
mkdir minio
cd minio 
wget https://dl.min.io/server/minio/release/linux-amd64/minio
export MINIO_ROOT_USER=minioadmin
export MINIO_ROOT_PASSWORD=minioadmin
#./minio server ./data
./minio server --address :29000 ./data

利用 WEB 界面打开 MinIO 管理测,打开后创建一个: databend bucket

 databend下载

官网下载:只能下载最新版本,最新版本的使用可能需要升级相应的依赖库,有风险的话,就在docker中使用。

Databend - Activate your Object Storage for real-time analytics | Databend

历史版本下载:

Tags · datafuselabs/databend · GitHub

经验:可以通过修改如下链接的版本号进行下载

https://repo.databend.rs/databend/v0.9.50-nightly/databend-v0.9.50-nightly-x86_64-unknown-linux-musl.tar.gz

mkdir databend_cluster

tar -zxvf databend-v0.9.50-nightly-x86_64-unknown-linux-musl.tar.gz -C databend_cluster

单点部署

databend-query 的配置

# Storage config.
[storage]
# fs | s3 | azblob | obs
type = "s3"

# Set a local folder to store your data.
# Comment out this block if you're NOT using local file system as storage.
[storage.fs]
data_path = "./.databend/stateless_test_data"

# To use S3-compatible object storage, uncomment this block and set your values.
[storage.s3]
bucket = "databend"
endpoint_url = "https://192.168.10.159:29000"
access_key_id = "minioadmin"
secret_access_key = "minioadmin"

启动 Databend

./script/start.sh
ps axu |grep databend

关闭 Databend

./script/stop.sh 

连接 Databend

Databend 默认对外有三个服务端口:
MySQL : 3307 支持 MySQL cli,应用程序连接。
Clickhouse: 8124 Clickhouse http handler 协议

这里我们以 MySQL client 连接举例:

mysql -h 127.0.0.1 -P3307 -uroot

需要注意 root 可以通过 localhost 实现无密码登录。Databend 权限管理参考了 MySQL 8.0 的设计,可以按 MySQL 8.0 的用户管理来管理 Databend 的用户。

mysql8 创建用户 

create user 'xx'@'%' identified by 'xxx';
grant all privileges on *.* to 'xx'@'%' with grant option;
flush privileges;

测试

mysql客户端登录以后

create database test;
use test;

#建表

CREATE TABLE `p_msg` (
  `id` int ,
  `tt` varchar(3000) ,
  `author` varchar(255) ,
  `tags` varchar(255) ,
  `insert_time` timestamp ,
  `pubtime` datetime  
) ;

#插入测试数据

INSERT INTO `test`.`p_msg`(`id`, `tt`, `author`, `tags`, `insert_time`, `pubtime`) VALUES (1, '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”', 'Albert Einstein', 'change', '2022-10-07 10:32:00', '2022-10-07 10:32:00');

插入数据以后,minio的databend的bucket下回有数据进入。

 对应的测试表可以按要求查询到:

 来源:

基于 MinIO 部署单实例 Databend | 新手篇(1)

databend集群部署

Databend 集群中的概念

在 Databend 集群中分为两个角色:databend-meta 集群和 databend-query 集群。其中 databend-meta 集群要求先启动,它在生产环境中建议 awayson 状态,并至少 3 个节点;databend-query 集群,可以是多个。

在生产中,我们推荐可以全局部署一个 databend-meta 集群。databend-meta 对资源消耗不高,也可以和其它程序共用资源。

databend-query 默认是最大能力的并发,在单个 databend-query 节点下,一个 SQL 会尽最大努力把单节点的所有 CPU CORE 间并发;在集群模式下, databend-query 会把计算在整个集群中做并发调度。

集群资源隔离
在 databend 集群中,资源隔离有几个重要的概念: tenant_id, cluster_id, max_threads。 为了让大家更好的理解 databend 集群,我们需要先理解一下这三个概念。

1. tenant_id :租户 id, 用于标识 databend-query 属于哪个租户下面。当租户 tenant_id 一样时,这个 databend-query 就可以获取该租户下的:用户列表及权限, 对应的数据的定义相关等。

2. cluster_id :集群 id , 这个参数依附于 tenant_id,首先需要看它在哪个 tenant_id 下面,然后可以获取对应的 meta 数据, 然后再看是不是有同样的 cluster_id 成员。如果遇到同样的 cluster_id 成员就自动组成集群,可以在 system.clusters 表中查询到,之后 SQL 请求到该节点后,算力会在 tenant_id 和 cluster_id 一样的节点间协调。对于 tenant_id 一样, cluster_id 不一样的,可以起到算力隔离,但大家共享一份数据和用户列表。

 同一个 teant_id 下 meta 相应的信息是共享的, 相应的 cluster_id 是计算可以共享。所以 Databend 中支持原生的多租户模型,同一个租户内也支持多个 Cluster。

3. max_threads:控制一个 sql 在 databend-query 上可以用到多少个 cpu core, 默认是节点支持的 cpu core ,例如有一些复杂 SQL 在内存不足的情况下通过 max_threads 限制并发的数量,减少内存的占用。

集群规划

192.160.10.153 databend-meta(single)  databend-query

192.160.10.159 databend-meta  databend-query

192.160.10.160 databend-meta  databend-query

databend-meta集群 

/etc/hosts

192.168.10.153 meta01
192.168.10.159 meta02
192.168.10.160 meta03

192.160.10.153配置

vi configs/databend-meta.toml

log_dir                 = "/var/log/databend"
admin_api_address       = "0.0.0.0:28101"
grpc_api_address        = "0.0.0.0:9191"
# databend-query fetch this address to update its databend-meta endpoints list,
# in case databend-meta cluster changes.
grpc_api_advertise_host = "192.168.10.153"

[raft_config]
id            = 1
raft_dir      = "/var/lib/databend/raft"
raft_api_port = 28103

# Assign raft_{listen|advertise}_host in test config.
# This allows you to catch a bug in unit tests when something goes wrong in raft meta nodes communication.
raft_listen_host = "192.168.10.153"
raft_advertise_host = "192.168.10.153"

# Start up mode: single node cluster
single        = true

192.160.10.159配置

vi configs/databend-meta.toml

log_dir                 = "/var/log/databend"
admin_api_address       = "0.0.0.0:28101"
grpc_api_address        = "0.0.0.0:9191"
# databend-query fetch this address to update its databend-meta endpoints list,
# in case databend-meta cluster changes.
grpc_api_advertise_host = "meta02"

[raft_config]
id            = 2
raft_dir      = "/var/lib/databend/raft"
raft_api_port = 28103

# Assign raft_{listen|advertise}_host in test config.
# This allows you to catch a bug in unit tests when something goes wrong in raft meta nodes communication.
raft_listen_host = "meta02"
raft_advertise_host = "meta02"

# Start up mode: single node cluster
# single        = true
join            =["meta01:28103","meta03:28103"]

192.160.10.160配置

vi configs/databend-meta.toml

log_dir                 = "/var/log/databend"
admin_api_address       = "0.0.0.0:28101"
grpc_api_address        = "0.0.0.0:9191"
# databend-query fetch this address to update its databend-meta endpoints list,
# in case databend-meta cluster changes.
grpc_api_advertise_host = "meta03"

[raft_config]
id            = 3
raft_dir      = "/var/lib/databend/raft"
raft_api_port = 28103

# Assign raft_{listen|advertise}_host in test config.
# This allows you to catch a bug in unit tests when something goes wrong in raft meta nodes communication.
raft_listen_host = "meta03"
raft_advertise_host = "meta03"

# Start up mode: single node cluster
# single        = true
join            =["meta01:28103","meta02:28103"]

注意 join 节点里不能出现本机的 ip

启动meta节点

第一次需要注意,首先需要启第一个 single 等 true 的节点,然后启动其它节点。第一次启动外,也需要注意, 至少保证启动两个 meta 节点后,再启动 query 节点,否则可能出现 query 加不到集群的现象。

第二次启动,需要先启动非single一个节点,相隔2-3s 再启动single节点,最后启动其他非single节点。

启动databend-meta脚本

meta.sh

#!/bin/bash
ulimit  -n 65535
nohup bin/databend-meta --config-file=configs/databend-meta.toml  2>&1 >meta.log &

meta集群成员查看

需要查看single节点的admin_api_address端口。

curl 192.168.10.153:28101/v1/cluster/nodes

出现集群成员信息,代表集群搭建成功,否则需要查看日志。

databend-query集群

configs/databend-query.toml

Query 节点的配置可以是一样的,核心配置如下(注意并不是全部配置,不能直接复制):

flight_api_address = "0.0.0.0:9091"


# Storage config.
[storage]
# fs | s3 | azblob | obs
type = "s3"

# Set a local folder to store your data.
# Comment out this block if you're NOT using local file system as storage.
[storage.fs]
data_path = "./.databend/stateless_test_data"

# To use S3-compatible object storage, uncomment this block and set your values.
[storage.s3]
bucket = "databend"
endpoint_url = "https://192.168.10.159:29000"
access_key_id = "minioadmin"
secret_access_key = "minioadmin"

[meta]
# To enable embedded meta-store, set address to "".
embedded_dir = "./.databend/meta_embedded_1"
address = ["192.168.10.153:9191","192.168.10.159:9191","192.168.10.160:9191"]
username = "root"
password = "root"
client_timeout_in_second = 60
auto_sync_interval = 60

启动query节点

nohup bin/databend-query --config-file=configs/databend-query.toml 2>&1 >query.log &

查看query集群成员信息

select * from system.clusters;

 验证

在meta01节点,登录databend,进行建库,建表,入库的操作,在meta02和meta03节点上登录databend都可以查看到操作结果,说明集群搭建成功。

关闭进程脚本

#关闭meta进程

kill -9 `pgrep -f "bin/databend-meta"`

#关闭query进程

kill -9 `pgrep -f "bin/databend-query"`

来源:

Databend 集群部署 | 新手篇(2)_Databend的博客-CSDN博客

Databend 集群部署 | 新手篇(2)

Welcome | Databend

猜你喜欢

转载自blog.csdn.net/csdncjh/article/details/132000922
今日推荐