今天客户物理机上遇到文件描述符用尽的问题,现象包括:
- SSH连接物理机卡住
- PG服务端口TCP心跳检测失败
- PSQL卡住
- 报错:too many open files
概念
在Linux系统中一切皆可以看成是文件,文件又可分为:普通文件、目录文件、链接文件和设备文件。
文件描述符(file descriptor)是内核为了高效管理已被打开的文件所创建的索引,其是一个非负整数(通常是小整数),用于指代被打开的文件,所有执行I/O操作的系统调用都通过文件描述符。
程序刚刚启动的时候,0是标准输入,1是标准输出,2是标准错误。如果此时去打开一个新的文件,它的文件描述符会是3。POSIX标准要求每次打开文件时(含socket)必须使用当前进程中最小可用的文件描述符号码,因此,在网络通信过程中稍不注意就有可能造成串话。标准文件描述符图如下:
文件描述与打开的文件对应模型如下图:
限制及调整方法
限制
在编写文件操作的或者网络通信的软件时,初学者一般可能会遇到Too many open files
的问题。这主要是因为文件描述符是系统的一个重要资源,虽然说系统内存有多少就可以打开多少的文件描述符,但是在实际实现过程中内核是会做相应的处理的,一般最大打开文件数会是系统内存的10%(以KB来计算)(称之为系统级限制),查看系统级别的最大打开文件数可以使用sysctl -a | grep fs.file-max
命令查看。与此同时,内核为了不让某一个进程消耗掉所有的文件资源,其也会对单个进程最大打开文件数做默认值处理(称之为用户级限制),默认值一般是1024,使用ulimit -n命令可以查看。
调整方法
确认当前值
确认当前文件描述符数量
# -w忽略告警
lsof -w | wc -l
192987
watch "lsof -w | wc -l"
查看某进程的文件描述符数量
lsof -p pid | wc -l
排序查看当前进程打开了多少句柄数
lsof -wn|awk '{print $2}'|sort|uniq -c|sort -nr|more
系统级参数配置
系统所有进程一共可以打开的文件数量,
file-max是设置系统所有进程一共可以打开的文件数量
cat /proc/sys/fs/file-max
6553600
sysctl -a | grep file-max
fs.file-max = 6553600
# 修改
echo 6553560 > /proc/sys/fs/file-max
# 或修改 /etc/sysctl.conf, 加入
fs.file-max = 6553560
sysctl -p
>> 用户级参数配置
-
任何用户对ulimit -n的修改只在当前环境有效,退出后失效
-
重新登录新来后,ulimit -n由limits.conf决定
-
如果limits.conf没有做设定,则默认值是1024
-
当前环境的用户所有进程能打开的最大文件数量由ulimit -n决定
-
limits.conf可以针对某一或所有用户配置fd限制
-
注意:*表示所有用户,可根据需要设置某一用户
-
注意:mingjie.gmj具体用户配置会优先生效
vi /etc/security/limits.conf
* soft nofile 102400
* hard nofile 102400
mingjie.gmj soft nofile 75535
mingjie.gmj hard nofile 75535
shell级参数配置
Linux限制每个登录用户的可连接文件数。可通过ulimit -n来查看当前有效设置。如果想修改这个值就使用 ulimit -n 命令。
ulimit -a
core file size (blocks, -c) unlimited
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 4133861
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 65535
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 10240
cpu time (seconds, -t) unlimited
max user processes (-u) 4133861
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
文件描述符合打开文件之间的关系
-
每一个文件描述符会与一个打开文件相对应,同时,不同的文件描述符也会指向同一个文件。
-
相同的文件可以被不同的进程打开也可以在同一个进程中被多次打开。
-
系统为每一个进程维护了一个文件描述符表,该表的值都是从0开始的,所以在不同的进程中你会看到相同的文件描述符,这种情况下相同文件描述符有可能指向同一个文件,也有可能指向不同的文件。
具体情况要具体分析,要理解具体其概况如何,需要查看由内核维护的3个数据结构。
-
进程级的文件描述符表
进程级的描述符表的每一条目记录了单个文件描述符的相关信息。
- 控制文件描述符操作的一组标志
- 对打开文件句柄的引用
-
系统级的打开文件描述符表
内核对所有打开的文件的文件维护有一个系统级的描述符表格(open file description table)。有时,也称之为打开文件表(open file table),并将表格中各条目称为打开文件句柄(open file handle)。一个打开文件句柄存储了与一个打开文件相关的全部信息,如下所示:
- 当前文件偏移量(调用read()和write()时更新,或使用lseek()直接修改)
- 打开文件时所使用的状态标识(即,open()的flags参数)
- 文件访问模式(如调用open()时所设置的只读模式、只写模式或读写模式)
- 与信号驱动相关的设置
- 对该文件i-node对象的引用
- 文件类型(例如:常规文件、套接字或FIFO)和访问权限
- 一个指针,指向该文件所持有的锁列表
- 文件的各种属性,包括文件大小以及与不同类型操作相关的时间戳
-
文件系统的i-node表
下图展示了文件描述符、打开的文件句柄以及i-node之间的关系,图中,两个进程拥有诸多打开的文件描述符。
- 在进程A中,文件描述符1和30都指向了同一个打开的文件句柄(标号23)。这可能是通过调用dup()、dup2()、fcntl()或者对同一个文件多次调用了open()函数而形成的。
- 进程A的文件描述符2和进程B的文件描述符2都指向了同一个打开的文件句柄(标号73)。这种情形可能是在调用fork()后出现的(即,进程A、B是父子进程关系),或者当某进程通过UNIX域套接字将一个打开的文件描述符传递给另一个进程时,也会发生。再者是不同的进程独自去调用open函数打开了同一个文件,此时进程内部的描述符正好分配到与其他进程打开该文件的描述符一样。
- 进程A的描述符0和进程B的描述符3分别指向不同的打开文件句柄,但这些句柄均指向i-node表的相同条目(1976),换言之,指向同一个文件。发生这种情况是因为每个进程各自对同一个文件发起了open()调用。同一个进程两次打开同一个文件,也会发生类似情况。
总结
- 由于进程级文件描述符表的存在,不同的进程中会出现相同的文件描述符,它们可能指向同一个文件,也可能指向不同的文件。
- 两个不同的文件描述符,若指向同一个打开文件句柄,将共享同一文件偏移量。因此,如果通过其中一个文件描述符来修改文件偏移量(由调用read()、write()或lseek()所致),那么从另一个描述符中也会观察到变化,无论这两个文件描述符是否属于不同进程,还是同一个进程,情况都是如此。
- 要获取和修改打开的文件标志(例如:O_APPEND、O_NONBLOCK和O_ASYNC),可执行fcntl()的F_GETFL和F_SETFL操作,其对作用域的约束与上一条颇为类似。
- 文件描述符标志(即,close-on-exec)为进程和文件描述符所私有。对这一标志的修改将不会影响同一进程或不同进程中的其他文件描述符。