记录一次RAC 打补丁后,集群无法启动的问题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xxzhaobb/article/details/81707398

RDBMS11.2.0.4 。安装2018年7月份的psu,在一个节点上安装成功,在另一个节点上安装失败(当时也没有仔细看日志)。然后失败的节点上集群起不来了。安装成功的节点上,集群是可以起来的。

比较奇怪的问题,在节点上,通过root用户运行crsctl check crs 可以看到ohas是启动的。

但是使用grid用户,运行crsctl check crs ,发现ohas没有启动。 好奇怪。当时为了这个问题,困扰了好几天,为啥grid不行,root就可以呢?

[grid@host02 bin]$ crsctl check crs
CRS-4639: Could not contact Oracle High Availability Services
[grid@host02 bin]$ su root
Password:
[root@host02 bin]# crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4530: Communications failure contacting Cluster Synchronization Services daemon
CRS-4534: Cannot communicate with Event Manager
[root@host02 bin]#

看了好几天的日志,没有发现异常。包括集群的日志,gpnp的日志,ocss、crsd的日志。

今天又尝试去看日志。发现ocssd日志里面,提示网络有问题,查看了下网络,没有问题。

又提示gpnp初始化失败。 看了看gpnp的日志,没啥问题。

后来看了集群的日志。发现很多资源都不能启动。

于是尝试手工启动asm实例,当连上asm实例的时候,提示设备空间不足。无法创建审计文件等等。

当时想,是不是trc文件太多了。导致一些文件夹撑爆了。df -h一看。发现根目录使用率100%。

删除掉一些文件后。 重启。crsctl check crs 。正常了。

[grid@host02 ~]$ crsctl check cluster -n host02
**************************************************************
host02:
CRS-4537: Cluster Ready Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
**************************************************************
[grid@host02 ~]$ crsctl check cluster -n host03
**************************************************************
host03:
CRS-4537: Cluster Ready Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
**************************************************************
[grid@host02 ~]$

随便犯了低级错误。但是还是老老实实看了很几天日志。对于rac的启动等等有了深入的了解。

END

猜你喜欢

转载自blog.csdn.net/xxzhaobb/article/details/81707398