本文带领读者从源码作者的角度去实现一个fd_set, 并将fd_set在windows和linux下的实现进行了简单的对比和分析。需要读者有使用select模型编程的基础。

文章目录

如何从零开始实现一个文件描述符集合
Linux下fd_set的实现
Windows下fd_set的实现
对比

时空复杂度
业务场景

总结

如何从零开始实现一个文件描述符集合

我们现在来做一件比较有意思的事情, 先不看源码, 而是把自己当成socket.h的作者来实现实现一个fd_set, 即完成如下结构体和宏的定义。

typedef struct{
	/*fd_set结构体定义*/
} fd_set;

#define FD_ISSET(fd, set)	/*判断是否存在*/
#define FD_SET(fd, set)		/*插入*/
#define FD_CLR(fd, set)		/*删除*/

首先我们知道一个socket文件描述符在linux下实际上是一个int类型, 在windows下是一个unsigned int类型, 所以本质上文件描述符就是一个数字。

那么假设我们要实现一个集合, 存储大小为[0,FD_SETSIZE)的数字, 并提供了插入,弹出,查找等功能, 现在给三分钟的时间给读者思考可以怎么实现?

相信不少聪明的读者都能想到, 我们可以用一个长度为FD_SETSIZE的比特数组, 数组的第i项表示值为i的文件描述符是否在这个集合里面。那么我们就可以简单地用以下代码实现:

typedef struct {
	bit	fds_bits[FD_SETSIZE];
} fd_set;

#define FD_ISSET(fd, set)    (((set)->fd_bits)[fd])
#define FD_SET(fd, set)      ((((set)->fd_bits)[fd]) = 1)
#define FD_CLR(fd, set)      ((((set)->fd_bits)[fd]) = 0)

然而, 问题在于大部分PC下的C语言编译器并没有为我们提供bit类型, 显然我们也不会使用C51这种单片机编译器编译。所以我们只能用已有的类型来模拟这个bitmap。
假设我们使用一个long int类型的数组来模拟上面的bit数组。为了简洁, 我们将该类型定义为fd_mask:

typedef long int fd_mask;

将数组每个元素所可以存储的bit个数称为NFDBITS, 计算方式为fd_mask的字节数sizeof(fd_mask)乘以每个字节所占的比特数8:

#define NFDBITS (8 * (int) sizeof(fd_mask))

从而, 为了存储FD_SETSIZE个描述符, 我们需要一个长度为FD_SETSIZE / NFDBITS的fd_mask数组, 该数组命名为fds_bits:

typedef struct {
	fd_mask fds_bits[__FD_SETSIZE / __NFDBITS];
} fd_set;

至此, fd_set结构体的定义已经完成, 接下来的重点在于我们如何索引到第fd个比特位, 其实也很简单。我们用fd除以每个元素的大小的商就是该比特位所在的fd_mask的下标:

#define FD_ELT(fd)	((fd) / NFDBITS))

余数就是该比特位在该fd_mask中的位置, 我们将该位置转换成掩码的形式, 即返回一个fd_mask类型, 并将相应比特位置1:

#define FD_MASK(d)	（(fd_mask) (1UL << ((d) % NFDBITS)))

通过上面两个函数, 我们就可以轻而易举地写出查找, 插入, 删除操作的实现:

#define FD_SET(d, set) \
  ((void) (((set)->fd_bits)[__FD_ELT (d)] |= FD_MASK (d)))
#define FD_CLR(d, set) \
  ((void) (((set)->fd_bits)[__FD_ELT (d)] &= ~FD_MASK (d)))
#define FD_ISSET(d, set) \
  ((((set)->fd_bits)[__FD_ELT (d)] & FD_MASK (d)) != 0)

至此, 我们已经成功实现了所有目标, 把所有代码整合起来如下:

typedef long int fd_mask;
#define NFDBITS (8 * (int) sizeof(fd_mask)) 

typedef struct {
	fd_mask fds_bits[__FD_SETSIZE / __NFDBITS];
} fd_set;

#define FD_ELT(fd)	((fd) / NFDBITS))
#define FD_MASK(d)	（(fd_mask) (1UL << ((d) % NFDBITS)))

#define FD_SET(d, set) \
  ((void) (((set)->fd_bits)[__FD_ELT (d)] |= FD_MASK (d)))
#define FD_CLR(d, set) \
  ((void) (((set)->fd_bits)[__FD_ELT (d)] &= ~FD_MASK (d)))
#define FD_ISSET(d, set) \
  ((((set)->fd_bits)[__FD_ELT (d)] & FD_MASK (d)) != 0)

Linux下fd_set的实现

对比以下linux下从select.h提取出的源码:

typedef long int __fd_mask; 
#define __NFDBITS (8 * (int) sizeof (__fd_mask)) 

typedef struct {
    __fd_mask fds_bits[__FD_SETSIZE / __NFDBITS];
} fd_set;

#define	__FD_ELT(d)	((d) / __NFDBITS) 
#define	__FD_MASK(d)	((__fd_mask) (1UL << ((d) % __NFDBITS)))
# define __FDS_BITS(set) ((set)->fds_bits)

#define __FD_SET(d, set) \
  ((void) (__FDS_BITS (set)[__FD_ELT (d)] |= __FD_MASK (d)))
#define __FD_CLR(d, set) \
  ((void) (__FDS_BITS (set)[__FD_ELT (d)] &= ~__FD_MASK (d)))
#define __FD_ISSET(d, set) \
  ((__FDS_BITS (set)[__FD_ELT (d)] & __FD_MASK (d)) != 0)
# define __FD_ZERO(fdsp) \
  do {									      \
    int __d0, __d1;							      \
    __asm__ __volatile__ ("cld; rep; " __FD_ZERO_STOS			      \
			  : "=c" (__d0), "=D" (__d1)			      \
			  : "a" (0), "0" (sizeof (fd_set)		      \
					  / sizeof (__fd_mask)),	      \
			    "1" (&__FDS_BITS (fdsp)[0])			      \
			  : "memory");					      \
  } while (0)

结果真是amazing啊, 几乎和我们实现的一模一样有木有。发现linux源码的作者使用的算法和我们的一样后, 读者的心情应该和我一样非常激动。让我们再瞄一眼windows下的实现。

Windows下fd_set的实现

以下源码来自Winsock2.h

typedef struct fd_set {
        u_int fd_count;               /* how many are SET? */
        SOCKET  fd_array[FD_SETSIZE];   /* an array of SOCKETs */
} fd_set;

#define FD_CLR(fd, set) do { \
    u_int __i; \
    for (__i = 0; __i < ((fd_set FAR *)(set))->fd_count ; __i++) { \
        if (((fd_set FAR *)(set))->fd_array[__i] == fd) { \
            while (__i < ((fd_set FAR *)(set))->fd_count-1) { \
                ((fd_set FAR *)(set))->fd_array[__i] = \
                    ((fd_set FAR *)(set))->fd_array[__i+1]; \
                __i++; \
            } \
            ((fd_set FAR *)(set))->fd_count--; \
            break; \
        } \
    } \
} while(0, 0)

#define FD_SET(fd, set) do { \
    u_int __i; \
    for (__i = 0; __i < ((fd_set FAR *)(set))->fd_count; __i++) { \
        if (((fd_set FAR *)(set))->fd_array[__i] == (fd)) { \
            break; \
        } \
    } \
    if (__i == ((fd_set FAR *)(set))->fd_count) { \
        if (((fd_set FAR *)(set))->fd_count < FD_SETSIZE) { \
            ((fd_set FAR *)(set))->fd_array[__i] = (fd); \
            ((fd_set FAR *)(set))->fd_count++; \
        } \
    } \
} while(0, 0)

#define FD_ZERO(set) (((fd_set FAR *)(set))->fd_count=0)

#define FD_ISSET(fd, set) __WSAFDIsSet((SOCKET)(fd), (fd_set FAR *)(set))

学过数据结构的朋友们一眼就能看出, 这不是和课本上用数组实现的线性表一毛一样嘛。正是由于windows下的fd_set记录了socket个数, 所以select()函数的第一个参数nfds不需要用户给出。

对比

时空复杂度

Linux下FD_SETSIZE的定义是1024, 则fds_bits数组长度为64。
Windows下FD_SETSIZE定义是64, fd_array数组长度为64。

数组长度相同, 以下的时间复杂度对比有意义。

OS	FD_SET()	FD_CLR()	FD_ISSET()	FD_ZERO()
Linux	$O(1)$	$O(1)$	$O(1)$	$O(n)$
Windows	$O(n)$	$O(n)$	$O(n)$	$O(1)$

仅从该表格的对比上我们可以看到, 对于大部分操作, Linux的效率都比Windows的高。并且Linux的select模型可以用更少的空间和时间管理更多的描述符, 这大概也是为什么windows和linux中select()默认可管理的最大描述符差别如此大的原因之一。

横看竖看, 好像怎么都找不到windows的这个实现方式有什么优点, 那为什么聪明的windows系统工程师要这么实现呢？让我们离开源码, 到业务场景来瞧一瞧:

业务场景

且看GNU官方给出的select服务器示例代码, 在此我仅截取关键的一小段:

for (i = 0; i < FD_SETSIZE; i++)
	if (FD_ISSET (i, &read_fd_set))
	{
	    if (i == sock)
		{
	        /* Connection request on original socket*/
		}
	    else
	    {
	       	/* Data arriving on an already-conneted socket. */
	    }
	}

从这个代码中我们不难看出, 在最常见的实际业务场景中这个 $O(1)$ 的索引复杂度并不能起决定性的优势, 我们依旧要做一个FD_SETSIZE次的循环来遍历所有的socket, 并对他们执行相同的操作。在这种业务场景下, 我们更需要的不是一个哈希表、红黑树、集合、而是一个线性表。Linux下的fd_set显然没有自带这样的属性, 我们只能进行长度为1024的for循环, 为了减少复杂度,我们只能另外新建一个线性表存储已有的socket。但在windows下, 我们可以将代码优化成这样:

for (i = 0; i < read_fd_set.count; i++) 
{
	if (read_fd_set.fd_array[i] == sock)
	{
	    /* Connection request on original socket*/
	}
	else
	{
	    /* Data arriving on an already-conneted socket. */
	}
}

这样我们就只需要遍历我们集合中的所有socket, 省去了不少时间。

总结

上面两个角度的对比只是我们通过作为用户可以观察到的一点点信息进行的浅薄的分析, 实际上在庞大的windows和linux内核里有更多我还不了解的地方, 一个简单的fd_set的实现背后可能考虑到了无数因素, 比如是否还和windows下socket描述符的取值范围有关(比如超过1024)等等。总之, 永远对知识保持敬畏, 永远热爱学习, 才能一直进步。

深入理解select模型: fd_set的实现在linux和windows下的区别及优劣分析