Linux多路复用epoll

在linux 没有实现epoll事件驱动机制之前，我们一般选择用select或者poll等IO多路复用的方法来实现并发服务程序。自 Linux 2.6内核正式引入epoll以来，epoll已经成为了目前实现高性能网络服务器的必备技术，在大数据、高并发、集群等一些名词唱得火热之年代，select和poll的用武之地越来越有限，风头已经被epoll占尽。

select的缺点：

单个进程能够监视的文件描述符的数量存在最大限制，通常是1024，当然可以更改数量，但由于select采用轮询的方式扫描文件描述符，文件描述符数量越多，性能越差；
内核 / 用户空间内存拷贝问题，select需要复制大量的句柄数据结构，产生巨大的开销；
select返回的是含有整个句柄的数组，应用程序需要遍历整个数组才能发现哪些句柄发生了事件；
select的触发方式是水平触发，应用程序如果没有完成对一个已经就绪的文件描述符进行IO操作，那么之后每次select调用还是会将这些文件描述符通知进程。

相比select模型，poll使用链表保存文件描述符，因此没有了监视文件数量的限制，但其他三个缺点依然存在。拿select模型为例，假设我们的服务器需要支持100万的并发连接，则在__FD_SETSIZE 为1024的情况下，则我们至少需要开辟1k个进程才能实现100万的并发连接。除了进程间上下文切换的时间消耗外，从内核/用户空间大量的无脑内存拷贝、数组轮询等，是系统难以承受的。因此，基于select模型的服务器程序，要达到10万级别的并发访问，是一个很难完成的任务。
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
epoll是Linux内核为处理大批量文件描述符而作了改进的poll，是Linux下多路复用IO接口select/poll的增强版本，它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率。另一点原因就是获取事件的时候，它无须遍历整个被侦听的描述符集，只要遍历那些被内核IO事件异步唤醒而加入Ready队列的描述符集合就行了。epoll除了提供select/poll那种IO事件的水平触发（Level Triggered）外，还提供了边缘触发（Edge Triggered），这就使得用户空间程序有可能缓存IO状态，减少epoll_wait/epoll_pwait的调用，提高应用程序效率。

LT（level triggered）
是缺省的工作方式，并且同时支持block和no-block socket.在这种做法中，内核告诉你一个文件描述符是否就绪了，然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作，内核还是会继续通知你的，所以，这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表。
ET （edge-triggered）
是高速工作方式，只支持non-block socket。在这种模式下，当描述符从未就绪变为就绪时，内核通过epoll告诉你。然后它会假设你知道文件描述符已经就绪，并且不会再为那个文件描述符发送更多的就绪通知，直到你做了某些操作导致那个文件描述符不再为就绪状态了（比如，你在发送，接收或者接收请求，或者发送接收的数据少于一定量时导致了一个EWOULDBLOCK 错误）。但是请注意，如果一直不对这个fd作IO操作（从而导致它再次变成未就绪），内核不会发送更多的通知（only once），不过在TCP协议中，ET模式的加速效用仍需要更多的benchmark确认。
ET和LT的区别
LT事件不会丢弃，而是只要读buffer里面有数据可以让用户读，则不断的通知你。而ET则只在事件发生之时通知。可以简单理解为LT是水平触发，而ET则为边缘触发。LT模式只要有事件未处理就会触发，而ET则只在高低电平变换时（即状态从1到0或者0到1）触发。
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
由于epoll的实现机制与select/poll机制完全不同，上面所说的 select的缺点在epoll上不复存在。设想一下如下场景：有100 万个客户端同时与一个服务器进程保持着TCP连接。而每一时刻，通常只有几百上千个TCP连接是活跃的(事实上大部分场景都是这种情况)。如何实现这样的高并发？在select/poll时代，服务器进程每次都把这100万个连接告诉操作系统(从用户态复制句柄数据结构到内核态)，让操作系统内核去查询这些套接字上是否有事件发生，轮询完后，再将句柄数据复制到用户态，让服务器应用程序轮询处理已发生的网络事件，这一过程资源消耗较大，因此，select/poll一般只能处理几千的并发连接。

epoll的设计和实现与select完全不同。epoll通过在Linux内核中申请一个简易的文件系统，把原先的select/poll调用分成了3 个部分：

调用epoll_create()建立一个epoll对象(在epoll文件系统中为这个句柄对象分配资源)
调用epoll_ctl向epoll对象中添加这100万个连接的套接字
调用epoll_wait收集发生的事件的连接

如此一来，要实现上面说是的场景，只需要在进程启动时建立一个epoll对象，然后在需要的时候向这个epoll对象中添加或者删除连接。同时，epoll_wait的效率也非常高，因为调用epoll_wait时，并没有一股脑的向操作系统复制这100万个连接的句柄数据，内核也不需要去遍历全部的连接。

一.创建epoll实例：epoll_create()

#include <sys/epoll.h> 
int epoll_create(int size);
// 系统调用epoll_create()创建了一个新的epoll实例，其对应的兴趣列表初始化为空。若成功返回文件描述符，若出错返回-1。

参数size指定了我们想要通过epoll实例来检查的文件描述符个数。该参数并不是一个上限，而是告诉内核应该如何为内部数据结构划分初始大小。从Linux2.6.8版以来，size参数被忽略不用。
作为函数返回值，epoll_create()返回了代表新创建的epoll实例的文件描述符。这个文件描述符在其他几个epoll系统调用中用来表示epoll实例。当这个文件描述符不再需要时，应该通过close（）来关闭。当所有与epoll实例相关的文件描述符都被关闭时，实例被销毁，相关的资源都返还给系统。从2.6.27版内核以来，Linux支持了一个新的系统调用epoll_create1()。该系统调用执行的任务同epoll_create()一样，但是去掉了无用的参数size，并增加了一个可用来修改系统调用行为的flags参数。目前只支持一个flag标志：EPOLL_CLOEXEC，它使得内核在新的文件描述符上启动了执行即关闭标志。

二. 修改epoll的兴趣列表：epoll_ctl()

#include <sys/epoll.h> 
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *ev);
// 系统调用epoll_ctl()能够修改由文件描述符epfd所代表的epoll实例中的兴趣列表。若成功返回0，若出错返回-1。

第一个参数epfd是epoll_create()的返回值；

第二个参数op用来指定需要执行的操作，它可以是如下几种值：
EPOLL_CTL_ADD：
将描述符fd添加到epoll实例中的兴趣列表中去。对于fd上我们感兴趣的事件，都指定在ev所指向的结构体中。如果我们试图向兴趣列表中添加一个已存在的文件描述符，epoll_ctl()将出现EEXIST错误；
EPOLL_CTL_MOD：
修改描述符上设定的事件，需要用到由ev所指向的结构体中的信息。如果我们试图修改不在兴趣列表中的文件描述符，epoll_ctl()将出现ENOENT错误；
EPOLL_CTL_DEL：
将文件描述符fd从epfd的兴趣列表中移除，该操作忽略参数ev。如果我们试图移除一个不在epfd的兴趣列表中的文件描述符，epoll_ctl()将出现ENOENT错误。关闭一个文件描述符会自动将其从所有的epoll实例的兴趣列表移除；

第三个参数fd指明了要修改兴趣列表中的哪一个文件描述符的设定。该参数可以是代表管道、FIFO、套接字、POSIX消息队列、inotify实例、终端、设备，甚至是另一个epoll实例的文件描述符。但是，这里fd不能作为普通文件或目录的文件描述符；

第四个参数ev是指向结构体epoll_event的指针，结构体的定义如下：

typedef union epoll_data 
{    
	void        *ptr;    /* Pointer to user-defind data */    
	int        fd;    /* File descriptor */    
	uint32_t    u32;    /* 32-bit integer */    
	uint64_t    u64;    /* 64-bit integer */ 
} epoll_data_t;
struct epoll_event 
{    
	uint32_t events; /* epoll events(bit mask) */    
	epoll_data_t data; /* User data */ 
};

参数ev为文件描述符fd所做的设置（epoll_event）如下：

events字段
是一个位掩码，它指定了我们为待检查的描述符fd上所感兴趣的事件集合；
data字段
是一个联合体，当描述符fd稍后称为就绪态时，联合的成员可用来指定传回给调用进程的信息；

三.事件等待：epoll_wait()

#include <sys/epoll.h> 
int epoll_wait(int epfd, struct epoll_event *evlist, int maxevents, int timeout);
/* 系统调用epoll_wait()返回epoll实例中处于就绪态的文件描述符信息，单个epoll_wait()调用能够返回多个就
绪态文件描述符的 信息。调用成功后epoll_wait()返回数组evlist中的元素个数，如果在timeout超时间隔内没有
任何文件描述符处于就绪态的话就 返回0，出错时返回-1并在errno中设定错误码以表示错误原因。*/

第一个参数epfd是epoll_create()的返回值；
第二个参数evlist所指向的结构体数组中返回的是有关就绪态文件描述符的信息，数组evlist的空间由调用者负责申请；
第三个参数maxevents指定所evlist数组里包含的元素个数；
第四个参数timeout用来确定epoll_wait()的阻塞行为，有如下几种：

如果timeout等于-1，调用将一直阻塞，直到兴趣列表中的文件描述符上有事件产生或者直到捕获到一个信号为止。
如果timeout等于0，执行一次非阻塞式地检查，看兴趣列表中的描述符上产生了哪个事件。
如果timeout大于0，调用将阻塞至多timeout毫秒，直到文件描述符上有事件发生，或者直到捕获到一个信号为止。

数组evlist中，每个元素返回的都是单个就绪态文件描述符的信息。events字段返回了在该描述符上已经发生的事件掩码。 data字段返回的是我们在描述符上使用epoll_ctl()注册感兴趣的事件时在ev.data中所指定的值。注意，data字段是唯一可获知同这个事件相关的文件描述符的途径。因此，当我们调用epoll_ctl()将文件描述符添加到感兴趣列表中时，应该要么将ev.date.fd设为文件描述符号，要么将ev.date.ptr设为指向包含文件描述符号的结构体。

当我们调用epoll_ctl()时可以在ev.events中指定的位掩码以及由epoll_wait()返在这里插入代码片回的evlist[].events中的值如下所示：

常量　 			说明 			      作为 epoll_ctl()的输入 			作为epoll_wait()的返回
EPOLLIN 	可读取非高优先级数据 				  能 								能
EPOLLPRI 	可读取高优先级数据 				  能 								能
EPOLLRDHUP socket对端关闭(始于Linux 2.6.17)    能 							    能
EPOLLOUT 	普通数据可写 					  能 								能
EPOLLET 	采用边沿触发事件通知 				  能
EPOLLONESHOT 在完成事件通知之后禁用检查         能
EPOLLERR      有错误发生 														能
POLLHUP        出现挂断 															能

同样对这些宏进行打印：

#include<stdio.h>
#include<sys/epoll.h>

int main()
{
    printf("%u\n%u\n%u\n%u\n%u\n%u\n%u\n%u\n%u\n\n",EPOLLIN,
EPOLLPRI,EPOLLRDHUP,EPOLLOUT,EPOLLET,EPOLLONESHOT,EPOLLERR,
EPOLLHUP,sizeof(EPOLLIN));//这里用%d打印会超出范围
}

zhanghang@Ubuntu-14:~$ gcc test.c    
test.c: In function ‘main’:
test.c:19:2: warning: format ‘%u’ expects argument of type ‘unsigned int’, but argument 10 has type ‘long unsigned int’ [-Wformat=]
  printf("%u\n%u\n%u\n%u\n%u\n%u\n%u\n%u\n%u\n\n",EPOLLIN,EPOLLPRI,EPOLLRDHUP,EPOLLOUT,EPOLLET,EPOLLONESHOT,EPOLLERR,EPOLLHUP,sizeof(EPOLLIN));
  ^
zhanghang@Ubuntu-14:~$ ./a.out    
1
2
8192
4
2147483648
1073741824
8
16
4//可见这些宏都是unsigned int 类型，这些数=宏的二进制都是只有一位为1，后面的按位与和按位或会用到这些宏的位表示

默认情况下，一旦通过epoll_ctl()的EPOLL_CTL_ADD操作将文件描述符添加到epoll实例的兴趣列表中后，它会保持激活状态（即，之后对epoll_wait()的调用会在描述符处于就绪态时通知我们）直到我们显示地通过epoll_ctl()的EPOLL_CTL_DEL操作将其从列表中移除。如果我们希望在某个特定的文件描述符上只得到一次通知，那么可以在传给epoll_ctl()的ev.events中指定 EPOLLONESHOT标志。如果指定了这个标志，那么在下一个epoll_wait()调用通知我们对应的文件描述符处于就绪态之后，这个描述符就会在兴趣列表中被标记为非激活态，之后的epoll_wait()调用都不会再通知我们有关这个描述符的状态了。如果需要，我们可以稍后用过调用epoll_ctl()的EPOLL_CTL_MOD操作重新激活对这个文件描述符的检查。

下面是使用epoll()多路复用实现的服务器端的伪代码：

#include<>
int main()
{
	int 					  listen_fd;
	int 					  epoll_fd;
	struct epoll_event        event;    
	struct epoll_event        event_array[MAX_EVENTS];    
	int                       events; 
	listen_fd=socket;
	bind();
	listen();
	epoll_fd=epoll_create(MAX_EVENTS);/*代表新创建的epoll实例的文件描述符。这个文件描述符在其他几个
	epoll系统调用中用 来表示epoll实例。当这个文件描述符不再需要时，应该通过close（）来关闭。*/
	event.events = EPOLLIN;    
	event.data.fd = listen_fd;
	epoll_ctl(epoll_fd, EPOLL_CTL_ADD, listenfd, &event);//将listen_fd加入兴趣列表
	while(1)
	{	
		events = epoll_wait(epoll_fd, event_array, MAX_EVENTS, -1); /*events作为返回值来表示 系
		统调用epoll_wait()返回epoll实例中处于就绪态的文件描述符信息，单个epoll_wait()调用能够返回多
		个就绪态文件描述符的 信息。调用成功后epoll_wait()返回数组evlist中的元素个数，如果在timeout超
		时间隔内没有任何文件描述符处于就绪态的话就 返回0，出错时返回-1并在errno中设定错误码以表示错误
		原因。events==0超时，小于0出错。*/
		for(int i=0;i<events;i++)
		{
			if ( (event_array[i].events&EPOLLERR) || (event_array[i].events&EPOLLHUP) )
			{
				/*epoll_wait返回epoll实例中所有处于就绪态的文件描述符，数量为events，结构体数组
				event_array中（角标从低到高），并将这些fd的events域设置为相应的宏。如果这些fd的
				events域的宏和EPOLLERR或EPOLLHUP按位与后结果为真，即events域为EPOLLERR或EPOLLHUP
				时，相应的文件描述符出错，并关闭。*/
				 epoll_ctl(epoll_fd, EPOLL_CTL_DEL, event_array[i].data.fd, NULL); 
				 close(event_array[i].data.fd); //从列表中删除该fd并关闭该fd
			}
			if( event_array[i].data.fd == listenfd )//如果检测到listen_fd就绪
			{
				conn_fd=accept();
				event.data.fd = connfd;               
				event.events =  EPOLLIN; 
				epoll_ctl(epoll_fd, EPOLL_CTL_ADD, conn_fd, &event)//将conn_fd加入到兴趣列表
			}
			else//如果event_array[i]不是listen_fd,也不是fd发生错误,就是客户端数据到达，读取数据
			{ 
				rv=read(event_array[i].data.fd, buf, sizeof(buf));
				write(event_array[i].data.fd, buf, rv) ;
				//出错处理:
				epoll_ctl(epoll_fd, EPOLL_CTL_DEL, event_array[i].data.fd, NULL); 
				close(event_array[i].data.fd); 
			}
		}
	}
	close(listen_fd);
	return 0;
}

//epoll的脉络:
epoll_create();
epoll_ctl();//加入listen_fd
while(1)
{
	epoll_wait();
	for(;;)
	{
		epoll_ctl();//对兴趣列表进行修改
	}
}

一.创建epoll实例：epoll_create()

二. 修改epoll的兴趣列表：epoll_ctl()

三.事件等待：epoll_wait()

猜你喜欢