nouveau未禁用导致Ubuntu rsyslogd频繁写系统日志CPU占用率高的问题

        最近在使用Ubuntu14.04服务器时遇到一个如下问题。 服务器开机后,发现rsyslogd服务占用率一直为100%,查看日志发现才开机的几分钟的时间,刚清空的syslog已经有了几个G。

 

 由于文件过大,无法通过cat命令查看,所以通过如下命令查看日志内容:

tail -f /var/log/kern.log

 日志内容大致如下:

Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.903969] nouveau 0000:03:00.0: gr: 502000 - stat 80000000 00006500 00000000 00000000
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.903973] nouveau 0000:03:00.0: gr: 502000 - stat 00000000 00000000 00000002 00000000
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.903981] nouveau 0000:03:00.0: gr: FECS ucode error 2
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.903982] nouveau 0000:03:00.0: gr: FECS 00000003
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.903984] nouveau 0000:03:00.0: gr: 409000 - done 00000340
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.903988] nouveau 0000:03:00.0: gr: 409000 - stat 80000000 00010f00 80011698 80011698
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.903992] nouveau 0000:03:00.0: gr: 409000 - stat 00001000 00000002 00000006 00000000
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.903994] nouveau 0000:03:00.0: gr: 502000 - done 00000300
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.903998] nouveau 0000:03:00.0: gr: 502000 - stat 80000000 00006500 00000000 00000000
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904002] nouveau 0000:03:00.0: gr: 502000 - stat 00000000 00000000 00000002 00000000
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904011] nouveau 0000:03:00.0: gr: FECS MTHD subc 1 class 80011698 mthd 1698 data 00001000
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904013] nouveau 0000:03:00.0: gr: FECS 00000002
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904015] nouveau 0000:03:00.0: gr: 409000 - done 00000340
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904019] nouveau 0000:03:00.0: gr: 409000 - stat 80000000 00010f00 80011698 80011698
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904022] nouveau 0000:03:00.0: gr: 409000 - stat 00001000 00000002 00000006 00000001
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904024] nouveau 0000:03:00.0: gr: 502000 - done 00000300
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904028] nouveau 0000:03:00.0: gr: 502000 - stat 80000000 00006500 00000000 00000000
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904032] nouveau 0000:03:00.0: gr: 502000 - stat 00000000 00000000 00000002 00000000
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904042] nouveau 0000:03:00.0: gr: FECS MTHD subc 1 class 80011698 mthd 1698 data 00001000
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904043] nouveau 0000:03:00.0: gr: FECS 00000002
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904046] nouveau 0000:03:00.0: gr: 409000 - done 00000340
Mar 15 11:09:45 lango-smallserver-002 kernel: [  408.904049] nouveau 0000:03:00.0: gr: 409000 - stat 80000000 00010f00 80011698 80011698

将rsyslogd杀掉后不久,就发现kworker 进程的cpu占用率一直为100%左右,而且这个进程还干不掉,干掉了又会自己运行。

而且发现通过reboot 、shutdown等命令没法关机。

查询到这个kworker进程的cpu占用高是由于bios配置、驱动匹配,或者频繁的系统调用导致。于是一项项排除:

1. 先重启了机器,发现还是会出现该问题,频繁的系统调用应改不会有,机器中毒的可能性也不大。

2. 重置了bios配置,问题依然存在。

3. 最后根据日志中的nouveau 关键字搜索发现:

大致原因是由于安装NVIDIA驱动后,没有禁用nouveau导致,总之这个锅交给了N卡。

首先看看nouveau 这是个什么东西:

在网上查看解决办法:

https://www.zhihu.com/question/68565667?sort=created

解决办法:

把驱动加到黑名单里面去即可,在 /etc/modprobe.d/blcaklist.conf 文件末尾添加:

然后执行如下命令: 

sudo update-initramfs -c

sudo update-grub

sudo reboot

如果通过命令重启不了,自己强制重启系统即可。
 

猜你喜欢

转载自blog.csdn.net/fangye945a/article/details/114829375