2018年12月7日早上接应用反馈oracle 一体机上的业务无法正常运转,系统超卡;由于一体机中跑着好几个11g的实例,全部实例的业务都反映很慢,速进行硬件方面的查看。
查看oracle数据库告警日志以及asm告警日志发现数据磁盘都有在数据同步的动作,并且alter日志中发现有坏块;再进一步通过ilom网页查看各主机的硬件告警情况,硬件无告警情况;exadata的闪存盘是在网页形式中无法发现的,登入对应的cell节点查看闪存盘情况发现有一块闪存盘存在问题;
cellcli -e list physicaldisk
cellcli -e list flashcache
cellcli list alterhistory
抓取今天与昨天对应时间的awr报告对比发现在受损后的等待事件中有:cell single block physical read等待事件发生
谷歌查找,mos查找发现有相当情况建议尽快更换受损闪存卡以及补丁升级。
l临时解决办法是重启受损的cell节点的cell服务(一次不行就多执行几次):
CellCLI> alter cell restart services cellsrv