Filecoin之运维日常巡检

为了便于巡检,建议hostname命名格式为:
Miner-3
Daemon-4
WorkerP1P2-5
WorkerC2-6
注:后面数字为局域网IP最后一段,如果网段不同,比如192.168.1.7和192.168.2.7都存在,则命名为Miner-1-7、Miner-2-7等。
新机器巡检:
禁用所有机器(Miner和Worker)的swap;
Ubuntu禁用自动更新;
显卡驱动禁用自动更新;
编辑/etc/apt/sources.list文件,修改更新源为阿里云、腾讯云或163的镜像。
时钟校验:
ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
ntpdate ntp.aliyun.com
NVME SSD批量组Raid0,挂载,设置挂载目录的权限;
更新挂载路径;
更新起始盘符;
更新--raid-devices数量;
更新分区数量;
更新用户名和组;
 给Deamon、Miner和C2-worker上拷贝证明参数;
Worker钱包充值;
环境变量:
export LOTUS_MINER_PATH=/home/xtang/nvme_disk/lotusminer/
export LOTUS_PATH=/home/xtang/nvme_disk/lotus/
export BELLMAN_CPU_UTILIZATION=0.875 
export FIL_PROOFS_MAXIMIZE_CACHING=1
export FIL_PROOFS_USE_GPU_COLUMN_BUILDER=1 # 使用GPU.
export FIL_PROOFS_USE_GPU_TREE_BUILDER=1   使用GPU.
export FIL_PROOFS_PARAMETER_CACHE=/home/xtang/nvme_disk/proofs_parameter # > 100GiB!
export FIL_PROOFS_PARENT_CACHE=/home/xtang/nvme_disk/proofs_parent   # > 50GiB!
export TMPDIR=/home/xtang/nvme_disk/tmp                 # 封装临时文件.

硬件设备日常运行状态监控
钱包余额检查,及时提醒充币 lotus-miner actor control list
lotus daemon 区块同步检查 lotus sync wait
掉线的 lotus-worker 检查
lotus-miner storage list
lotus-miner sealing workers | grep hostname | sort -k4: 是否有disable状态
消息堵塞检查与疏通
lotus mpool pending -local | grep Message | wc -l
调度程序工作问题排查
lotus-miner sealing jobs 与 lotus-miner sealing workers | grep hostname
时空证明日常检查
Miner机器证明文件(证明文件目录中文件是否存在)
时空证明的账户是否有消息堵塞
节点机器使用lotus sync wait,查看是否同步到最新高度
检查显卡驱动,nvidia-smi看一下驱动是否正常
查看Miner进程(lotus-miner sealing job看进程是否存在)
异常状态扇区处理 lotus-miner info
PreCommitFailed: lotus-miner sectors remove --really-do-it <sectorId>
SealPreCommit1Failed: lotus-miner sectors remove --really-do-it <sectorId>
CommitFailed: lotus-miner sectors update-state --really-do-it <sectorId> Committing
掉算力问题排查与恢复
定时任务脚本程序运行状态检查
ps -ef | grep 程序名称

小规模挖矿时用简单的备份方式,一种采用inotifywait+rsync实现实时增量备份,另外一种可以采用定时任务+rsync实现间隔x小时进行备份(相当于保留一份x小时前的快照)。

猜你喜欢

转载自blog.csdn.net/yishui_hengyu/article/details/116267150
今日推荐