怎么理解Linux软中断?

1. 怎么去理解

前面博客简单说过中断的含义,中断是系统用来响应硬件设备请求的一种机制,会打断进程的正常调度和运行,然后调用内核中的中断处理程序来响应硬件设备的请求。

为什么要有中断?其实中断是一种异步的事件处理机制,可以提高系统的并发处理能力。由于中断处理程序会打断进程的运行,特别是还会临时关闭中断,会导致上一次中断处理程序完成以前,其他中断都不能响应,那么这种情况下中断也可能会丢失,所以为了减少对进程的调度和运行的影响,中断处理程序要尽可能快的执行。

在Linux中,为了解决中断处理程序运行时间过长或者中断丢失的问题,将中断分为两个部分,上半部和下半部:

  • 上半部用来快速处理中断,他在中断禁止的模式下运行,主要处理跟硬件紧密相关的或者时间敏感的工作。
  • 下半部用来延迟处理上半部未完成的工作,通常以内核线程的方式运行,并且每个CPU对应一个软中断内核线程,名字为“ksoftirqd/CPU编号”。另外,软中断不仅仅是刚刚说的硬件设备中断处理程序的下半部,一些内核的自定义事件也是,比如网络收发、定时、内核调度和RCU(Read-Copy Update的缩写,Linux内核最常用的锁之一)等。

举个例子来帮助理解,网卡收包:

网卡收包,会通过硬中断的方式,通知内核有数据到达,内核就应该调用中断处理程序来响应它。这里上半部,就是快速处理,把网卡的数据读到内存中,更新一下硬件寄存器的状态,再发送一个软中断信号,通知下半部作进一步处理。下半部被软中断信号唤醒后,需要从内存中找到的网络数据,按照网络协议栈,逐层解析和处理,直到把它送到应用程序。

2. 查看软中断和内核线程

proc文件系统,是一种Linux内核空间和用户空间的交互的机制,可以用来查看内核的数据结构,或者动态修改内核配置。其中:

  • /proc/softirqs提供软中断的运行情况;
  • /proc/interrupts提供硬中断的运行情况。

$ cat /proc/softirqs
                    CPU0       CPU1
          HI:          0          0
       TIMER:     811613    1972736
      NET_TX:         49          7
      NET_RX:    1136736    1506885
       BLOCK:          0          0
    IRQ_POLL:          0          0
     TASKLET:     304787       3691
       SCHED:     689718    1897539
     HRTIMER:          0          0
         RCU:    1330771    1354737

从这个文件你可以看到软中断的10种类型和各种类型在不同CPU上的累计运行次数。比如:NET_RX,网络接收中断。NET_TX,网络发送中断。正常情况下,每种类型,在不同CPU上累计次数应该差不多,但也有例外。比如TASKLET,最常用的软中断实现机制,每个TASKLET运行一次就会结束,并且只在调用它的函数所在的CPU上运行。因此,这会导致调度的不均衡,更甚的会有性能限制。

使用命令:ps aux | grep ksoftorqd查看到内核线程的运行状态:


$ ps aux | grep softirq
root         7  0.0  0.0      0     0 ?        S    Oct10   0:01 [ksoftirqd/0]
root        16  0.0  0.0      0     0 ?        S    Oct10   0:01 [ksoftirqd/1]

注意,线程名有个中括号,说明ps无法获取它们的命令行参数,一般的像这种名字括在中括号中,就是内核线程。

3. 案例:软中断CPU使用率升高,怎么办?

在Linux中,当软中断事件频率过高时,内核线程也会因为CPU使用率过高,而导致软中断处理不及时,进而引发网络收发延迟,调度缓慢等性能问题。软中断CU使用率过高也是一种常见的性能问题。这里模拟一个SYN-FLOOD攻击场景:

                                                     

这里要使用三个工具:sar、hping3、tcpdump

  • sar是系统活动报告工具,即可以实时查看系统的当前活动,又可以配置保存和报告历史统计数据。
  • hping3是一个可以构造TCP/IP协议数据包的工具,可以对系统进行安全审计、防火墙测试等。
  • tcpdump网络抓包工具,用来分析各种网络问题。

# -S参数表示设置TCP协议的SYN(同步序列号),-p表示目的端口为80
# -i u100表示每隔100微秒发送一个网络帧
# 注:如果你在实践过程中现象不明显,可以尝试把100调小,比如调成10甚至1
$ hping3 -S -p 80 -i u100 192.168.0.30

在另一个终端操作系统的时候,发现系统相应明显变慢,即便敲个回车反应都很慢。


# top运行后按数字1切换到显示所有CPU
$ top
top - 10:50:58 up 1 days, 22:10,  1 user,  load average: 0.00, 0.00, 0.00
Tasks: 122 total,   1 running,  71 sleeping,   0 stopped,   0 zombie
%Cpu0  :  0.0 us,  0.0 sy,  0.0 ni, 96.7 id,  0.0 wa,  0.0 hi,  3.3 si,  0.0 st
%Cpu1  :  0.0 us,  0.0 sy,  0.0 ni, 95.6 id,  0.0 wa,  0.0 hi,  4.4 si,  0.0 st
...

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    7 root      20   0       0      0      0 S   0.3  0.0   0:01.64 ksoftirqd/0
   16 root      20   0       0      0      0 S   0.3  0.0   0:01.97 ksoftirqd/1
 2663 root      20   0  923480  28292  13996 S   0.3  0.3   4:58.66 docker-containe
 3699 root      20   0       0      0      0 I   0.3  0.0   0:00.13 kworker/u4:0
 3708 root      20   0   44572   4176   3512 R   0.3  0.1   0:00.07 top
    1 root      20   0  225384   9136   6724 S   0.0  0.1   0:23.25 systemd
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.03 kthreadd
...

从top输出,咋一看,是看不出什么问题的,但仔细一看,两个CPU的使用率只有3.3%、4.4%,但都是si即软中断上,从下面的进程列表看,%CPU虽然不高,但都是软中断进程ksoftirqd,猜测软中断有点可疑。可以查看/proc/softirqs/文件内容,但是这个文件的内容是自开机以来的累计值,所以参考价值不大,我们需要看的是一段时间的情况:


$ watch -d cat /proc/softirqs
                    CPU0       CPU1
          HI:          0          0
       TIMER:    1083906    2368646
      NET_TX:         53          9
      NET_RX:    1550643    1916776
       BLOCK:          0          0
    IRQ_POLL:          0          0
     TASKLET:     333637       3930
       SCHED:     963675    2293171
     HRTIMER:          0          0
         RCU:    1542111    1590625

通过以上结果你会发现,NET_RX(网络接收)、SCHED(内核调度)、RCU(RCU锁)几个不停变化。其中,NET_RX变化最快,其他几个都是,是保证Linux调度、时钟和临界保护区这些工作正常运行所必需的,有变化也是正常。接下来从网络接收软中断着手,使用SAR工具:


# -n DEV 表示显示网络收发的报告,间隔1秒输出一组数据
$ sar -n DEV 1
15:03:46        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
15:03:47         eth0  12607.00   6304.00    664.86    358.11      0.00      0.00      0.00      0.01
15:03:47      docker0   6302.00  12604.00    270.79    664.66      0.00      0.00      0.00      0.00
15:03:47           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
15:03:47    veth9f6bbcd   6302.00  12604.00    356.95    664.66      0.00      0.00      0.00      0.05

rxpck/s 和 txpck/s:每秒收发的网络帧数,也就是PPS。

rxkB/s 和 txkB/s:每秒收发的千字节数,也就是BPS。

很显然,eth0的收包个数或者字节数明显比发包大,计算一下,664 * 1024 / 12607 = 54字节,很小的网络帧。接下来可以用tcpdump抓取这个网卡的包:


# -i eth0 只抓取eth0网卡,-n不解析协议名和主机名
# tcp port 80表示只抓取tcp协议并且端口号为80的网络帧
$ tcpdump -i eth0 -n tcp port 80
15:11:32.678966 IP 192.168.0.2.18238 > 192.168.0.30.80: Flags [S], seq 458303614, win 512, length 0
...

Flags [S]表示一个SYN包,再加上前面sar发现的PPS 12000的收包,可以确认这是SYN FLOOD 攻击。

以上是学习极客时间专栏(倪朋飞:Linux性能优化实战)的个人总结

https://time.geekbang.org/column/intro/140

发布了37 篇原创文章 · 获赞 20 · 访问量 4944

猜你喜欢

转载自blog.csdn.net/qq_24436765/article/details/103665321