稳定性案例分析111

1、问题
挂起MTBF 24H,出现41台跑停现象
2、分析流程
1、随机确认了7台机器的log,发现都存在db文件文件,解析报错一致,均为KE导致的重启造成了跑停,log如下:
Exception Class: Kernel (KE) PC is at [] wake_up_common+0x24/0x98 LR is at [] wake_up+0x44/0x68
Current Executing Process: [ipi_cpu_dvfs_rt, 260][kthreadd, 2]
Backtrace: [] do_kernel_fault.part.1+0x70/0x8c [] do_page_fault+0x3f0/0x400 []
do_translation_fault+0x3c/0x48
[] do_mem_abort+0x58/0xd0
[] el1_da+0x24/0x40
[] wake_up+0x44/0x68
[] cpufreq_freq_transition_end+0x74/0xa8
[] Ripi_cpu_dvfs_thread+0x3ac/0x580
[] kthread+0xf4/0x108 [] ret_from_fork+0x10/0x50
[] 0xffffffffffffffff
确认了问题的原因,但从如上报错中并不能确认问题的根因,需要进一步排查。
2、50台出现41台跑停,基本上是必现的异常。而上轮测试并无异常,那么只有代码修改引入或者测试环境的差异两
种可能。
确认环境差异:与测试沟通后使用MTBF apk有更新(MTBF apk不一致)
确认代码修改:上轮测试pass时间为4月8日。但由于是维护项目,虽然时间周期间隔了2个多月,但代码提交并不
多。
3、发专项测试进行验证,使用问题版本使用原先pass版本的MTBF apk进行验证,同时根据提交代码与上轮pass时
间节点间的一些提交使用最新MTBF的apk进行验证。
4、同步提MTK case给到MTK确认。
3、进一步确认
1、问题版本使用老的MTBF

猜你喜欢

转载自blog.csdn.net/qq_42894864/article/details/104065377