1、简介

1.1 介绍

我们需要监测的集群正在运行的各种服务进程；集群所有 pgs 正常状态为 active + clean，其余均为异常状态

1.2 集群基础监测

集群基础监测主要包括检查集群健康状态，容量使用情况，monitor、osd 守护进程的运行状态（up、down）

2、集群健康检测

哈哈，平时比较懒，每次都要输入那么多 ceph，有点烦，原来 ceph 有个交互模式（没有命令记忆功能，哈哈哈，失算）

2.1 交互模式下检测集群健康

# ceph

## 查看 集群当前 状态，HEALTH_OK、HEALTH_WARN、HEALTH_ERR
ceph> health

## 效果 与 ceph -s 一样
ceph> status

## 集群 mon 相关 信息
ceph> quorum_status
ceph> mon_status

2.2 命令行输入

哈哈，还是使用命令行操作吧，能通过上下按键查找，同样的命令连续执行时，不需要不停的输入

## 这两个 命令 执行 的效果一样
# ceph status
# ceph -s

## health ： HEALTH_OK、HEALTH_WARN、HEALTH_ERR
# ceph health [detail]

备注：
集群健康状态 "HEALTH_OK" 表示集群健康正常，若出现 "HEALTH_WARN XXX num placement group stale"时，等待几分钟，一般都可自动恢复正常

2.3 集群动态监测

某些情况下，需要动态持续的关注集群事件信息

# ceph -w

3、集群容量检测

3.1 集群容量查看

集群处于健康状态运行，凡事都有个度，存储集群也是一样的，不可能一直写入，到了后期需要关注容量状态，毕竟数据量越大，会导致整个集群的性能有所降低（毕竟不好好检测容量状态，数据阻塞导致的问题可不是那么好解决的啦）；该删的的数据就删掉，实在没容量啦，就扩容吧，理论上是无限扩展；还有就是数据均衡的问题（这个后期再编写文章详细描述啦）

## ceph 中，所有 的数据 都写入 数据池中（抽象 出来的概念）
# ceph df

扫描二维码关注公众号，回复： 4871316 查看本文章

3.2 集群容量参数

一般情况下，osd 使用超过 85%，就不会往该 osd 写入数据；集群整体容量超过 95% 集群就不能写入了；可以调整配置，控制集群的容量，一般不建议调太大；osd 超过默认告警值就想想数据能不能均衡；集群超过告警值，扩容吧（哈哈哈，蹲机房扩容）

##  配置文件中 添加 容量 配置参数，记得 重启 相关 服务 让 配置生效
## 哈哈，其实 也可以 在线 修改 配置参数，后面 单独 编写 文件介绍喽
# vim /etc/ceph/ceph.conf
...
## 集群 整体 容量 使用 上限
mon_osd_full_ratio = "0.950000" 

## 单个 osd 容量 使用 上限
mon_osd_nearfull_ratio = "0.850000" 
...

4、mon 检测

一般情况下，线上环境都会部署多个 mon；所以对集群进行数据读写时，需要检查 mon 状态

## dump 比 stat 更 详细，quorum_status 比 dump 更详细
# ceph mon stat
# ceph mon dump
# ceph quorum_status -f json-pretty

5、osd 检测

5.1 osd 状态

    in：osd 加入集群
    out：osd 没有加入集群
    down：osd 加入集群，但是服务停止
    up：osd 加入集群，并且服务正在运行

5.2 osd 状态检测

## 检查 所有 osd 状态
# ceph osd stat
# ceph osd dump
# ceph osd tree

ceph 集群健康状态监管

1、简介

1.1 介绍

1.2 集群基础监测

2、集群健康检测

2.1 交互模式下检测集群健康

2.2 命令行输入

2.3 集群动态监测

3、集群容量检测

3.1 集群容量查看

3.2 集群容量参数

4、mon 检测

5、osd 检测

5.1 osd 状态

5.2 osd 状态检测

猜你喜欢

ceph 集群 健康状态 监管

1、简介

1.1 介绍

1.2 集群 基础 监测

2、集群 健康 检测

2.1 交互 模式下 检测 集群 健康

2.2 命令行 输入

2.3 集群 动态 监测

3、集群 容量 检测

3.1 集群 容量 查看

3.2 集群 容量 参数

4、mon 检测

5、osd 检测

5.1 osd 状态

5.2 osd 状态 检测

猜你喜欢

ceph 集群健康状态监管

1.2 集群基础监测

2、集群健康检测

2.1 交互模式下检测集群健康

2.2 命令行输入

2.3 集群动态监测

3、集群容量检测

3.1 集群容量查看

3.2 集群容量参数

5.2 osd 状态检测