04-使用windbg调试工具分析-高CPU问题

windows系列调试工具

  01-windows调试工具(ProcDump使用)_越老越顽固的博客-CSDN博客_procdump使用方法​​​​​​

 ​​​​​​ 02-windows调试工具(DebugDiag使用)_越老越顽固的博客-CSDN博客_debugdiag怎么用

  03-windows分析工具(depends定位动态库加载失败问题)


一:问题描述

  • 之前做的某个项目最近需要验收,程序是由之前同事开发的,后来因为一直没有出现问题所以也没有继续关注,最近有人反馈我们之前的程序占用的CPU比较高,在服务器上一个简单的服务模块占用了14%左右的CPU。而且CPU是持续占用比较高,那就应该是存在某个线程死循环在处理某个业务,所以就使用任务管理器生成了一个dump文件来进行简单的分析。

二、生成dump文件

打开任务管理器---》选择进程--》创建转储文件,会生成一个dump文件

三、分析dump文件

  1. 打开windbg,选择File-->Symbol File Path 设置程序的pdb文件和系统的pdb文件,多个pdb文件路径用分号间隔开
  2. 打开dump文件,选择File-->Open Crash Dump 加载dmp文件
  3. 使用命令  !runaway 查看每个线程的用户态CPU使用的时间
  4. 明显可以看到13号线程,占用的时间最多, 
  5. 使用命令切换到   ~13s 切换到13号线程
  6. 使用命令 kv 查看当前线程的调用堆栈,可以看到线程中使用到了一个封装的网络通讯库,一直在RecvFrom,猜测可能就是此线程在死循环在等待接收数据,中间没有等待时间,根据这个线索,然后继续定位代码模块
  7. 找到调用通讯模块库的线程代码。发现确实有一个while循环,继续点进函数里面查看。

    函数内部是在不断的调用循环接收客户端数据,查看调用了通讯库的函数声明,最后一个参数就是等待的时间(单位ms),正常如果设置了阻塞等待的时间应该就不会产生如此高的CPU,那么肯定就是该通讯库的该参数无效,
  8. 问题大概已经能定位,修改代码,在调用RecvFrom的函数后面,如果没有接收到网络数据就等待10ms。修改服务再次运行,服务的CPU瞬间下去。

四、总结

     对于这种持续CPU高的问题,比较好排查,一般可能就是某个线程中没有等待在死循环执行,根据dump文件,查看函数调用堆栈,便可以分析出问题,对于偶发性的高CPU排查,就需要使用到我前面文章中有提到过的procdump工具,在高CPU的时候抓取dump文件,然后使用windbg工具进行分析。

猜你喜欢

转载自blog.csdn.net/qq_37103755/article/details/128263801