【Linux系统编程】IO多路复用之epoll

00. 目录

文章目录

00. 目录
01. 概述
02. epoll函数
03. 程序示例
04. epoll优缺点
05. 附录

01. 概述

epoll是Linux下多路复用IO接口select/poll的增强版本，它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率，因为它会复用文件描述符集合来传递结果而不用迫使开发者每次等待事件之前都必须重新准备要被侦听的文件描述符集合，另一点原因就是获取事件的时候，它无须遍历整个被侦听的描述符集，只要遍历那些被内核IO事件异步唤醒而加入Ready队列的描述符集合就行了。

目前epoll是linux大规模并发网络程序中的热门首选模型。

02. epoll函数

epoll_create函数:

int epoll_create(int size)
功能：
   该函数生成一个 epoll 专用的文件描述符（创建一个 epoll 的句柄）。
参数：
   size: 用来告诉内核这个监听的数目一共有多大，参数 size 并不是限制了 epoll 所能监听的描述符
  最大个数，只是对内核初始分配内部数据结构的一个建议。使用完 epoll 后，必须调用 close() 关闭，
  否则可能导致 fd 被耗尽。
返回值：
    成功：epoll 专用的文件描述符
    失败：-1

epoll_ctl函数:

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)
功能：
   epoll 的事件注册函数，它不同于 select() 是在监听事件时告诉内核要监听什么类型的事件，
   而是在这里先注册要监听的事件类型。
参数：
    epfd: epoll 专用的文件描述符，epoll_create()的返回值
    op: 表示动作，用三个宏来表示：
       EPOLL_CTL_ADD：注册新的 fd 到 epfd 中；
       EPOLL_CTL_MOD：修改已经注册的fd的监听事件；
       EPOLL_CTL_DEL：从 epfd 中删除一个 fd；
    fd: 需要监听的文件描述符
    event: 告诉内核要监听什么事件，struct epoll_event 结构
返回值：
    成功：0
    失败：-1
        
struct epoll_event 结构如下：
    // 保存触发事件的某个文件描述符相关的数据（与具体使用方式有关）
    typedef union epoll_data {
        void *ptr;
        int fd;
        __uint32_t u32;
        __uint64_t u64;
    } epoll_data_t;
    
    // 感兴趣的事件和被触发的事件
    struct epoll_event {
        __uint32_t events; /* Epoll events */
        epoll_data_t data; /* User data variable */
    };

    events 可以是以下几个宏的集合：
        EPOLLIN ：表示对应的文件描述符可以读（包括对端 SOCKET 正常关闭）；
        EPOLLOUT：表示对应的文件描述符可以写；
        EPOLLPRI：表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）；
        EPOLLERR：表示对应的文件描述符发生错误；
        EPOLLHUP：表示对应的文件描述符被挂断；
        EPOLLET ：将 EPOLL 设为边缘触发(Edge Triggered)模式，
    			  这是相对于水平触发(Level Triggered)来说的。
        EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，
    	如果还需要继续监听这个 socket 的话，需要再次把这个 socket 加入到 EPOLL 队列里

epoll_wait函数:

int epoll_wait( int epfd, struct epoll_event * events, int maxevents, int timeout );
功能：
    等待事件的产生，收集在 epoll 监控的事件中已经发送的事件，类似于 select() 调用。
参数：
    epfd: epoll 专用的文件描述符，epoll_create()的返回值
    events: 分配好的 epoll_event 结构体数组，epoll 将会把发生的事件赋值到events 数组中
        （events 不可以是空指针，内核只负责把数据复制到这个 events 数组中，
        不会去帮助我们在用户态中分配内存）。
    maxevents: maxevents 告诉内核这个 events 有多大 。
    timeout: 超时时间，单位为毫秒，为 -1 时，函数为阻塞
返回值：
   成功：返回需要处理的事件数目，如返回 0 表示已超时。
   失败：-1

epoll 对文件描述符的操作有两种模式：LT（level trigger）和 ET（edge trigger）。LT 模式是默认模式，LT 模式与 ET 模式的区别如下：

LT 模式：当 epoll_wait 检测到描述符事件发生并将此事件通知应用程序，应用程序可以不立即处理该事件。下次调用 epoll_wait 时，会再次响应应用程序并通知此事件。

ET 模式：当 epoll_wait 检测到描述符事件发生并将此事件通知应用程序，应用程序必须立即处理该事件。如果不处理，下次调用 epoll_wait 时，不会再次响应应用程序并通知此事件。

ET 模式在很大程度上减少了 epoll 事件被重复触发的次数，因此效率要比 LT 模式高。epoll 工作在 ET 模式的时候，必须使用非阻塞套接口，以避免由于一个文件句柄的阻塞读/阻塞写操作把处理多个文件描述符的任务饿死。

03. 程序示例

#include <sys/epoll.h>
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <stdlib.h>
 
int main(int argc, char *argv[])
{
 
	int ret;
	int fd;
	
	ret = mkfifo("test_fifo", 0666); // 创建有名管道
	if(ret != 0){
		perror("mkfifo：");
	}
	
	fd = open("test_fifo", O_RDWR); // 读写方式打开管道
	if(fd < 0){
		perror("open fifo");
		return -1;
	}
	
	ret = 0;
	struct epoll_event event;	// 告诉内核要监听什么事件
	struct epoll_event wait_event;
	
	
	int epfd = epoll_create(10); // 创建一个 epoll 的句柄，参数要大于 0， 没有太大意义
	if(-1 == epfd ){
		perror ("epoll_create");
		return -1;
    }
	
	event.data.fd = 0; 	   // 标准输入
	event.events = EPOLLIN; // 表示对应的文件描述符可以读
	
	// 事件注册函数，将标准输入描述符 0 加入监听事件
	ret = epoll_ctl(epfd, EPOLL_CTL_ADD, 0, &event);
	if(-1 == ret){
		perror("epoll_ctl");
		return -1;
    }
	
	event.data.fd = fd; 	// 有名管道
	event.events = EPOLLIN; // 表示对应的文件描述符可以读
	
	// 事件注册函数，将有名管道描述符 fd 加入监听事件
	ret = epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &event);
	if(-1 == ret){
		perror("epoll_ctl");
		return -1;
    }
	
	ret = 0;
	
	while(1){			
		// 监视并等待多个文件（标准输入，有名管道）描述符的属性变化（是否可读）
		// 没有属性变化，这个函数会阻塞，直到有变化才往下执行，这里没有设置超时
		ret = epoll_wait(epfd, &wait_event, 2, -1);
		//ret = epoll_wait(epfd, &wait_event, 2, 1000);
		
		if(ret == -1){ // 出错
			close(epfd);
			perror("epoll");
		}else if(ret > 0){ // 准备就绪的文件描述符
		
			char buf[100] = {0};
			
			if( ( 0 == wait_event.data.fd ) 
			&& ( EPOLLIN == wait_event.events & EPOLLIN ) ){ // 标准输入
			
				read(0, buf, sizeof(buf));
				printf("stdin buf = %s\n", buf);
				
			}else if( ( fd == wait_event.data.fd ) 
			&& ( EPOLLIN == wait_event.events & EPOLLIN ) ){ // 有名管道
			
				read(fd, buf, sizeof(buf));
				printf("fifo buf = %s\n", buf);		
			}		
		}else if(0 == ret){ // 超时
			printf("time out\n");
		}
	}
	
	close(epfd);
	
	return 0;
}

在 select/poll中，进程只有在调用一定的方法后，内核才对所有监视的文件描述符进行扫描，而 epoll() 事先通过 epoll_ctl() 来注册一个文件描述符，一旦基于某个文件描述符就绪时，内核会采用类似 callback 的回调机制(软件中断 )，迅速激活这个文件描述符，当进程调用 epoll_wait() 时便得到通知。

04. epoll优缺点

epoll 的优点主要是一下几个方面：

1）监视的描述符数量不受限制，它所支持的 FD 上限是最大可以打开文件的数目，这个数字一般远大于 2048,举个例子,在 1GB 内存的机器上大约是 10 万左右，具体数目可以 cat /proc/sys/fs/file-max 察看,一般来说这个数目和系统内存关系很大。select() 的最大缺点就是进程打开的 fd 是有数量限制的。这对于连接数量比较大的服务器来说根本不能满足。虽然也可以选择多进程的解决方案( Apache 就是这样实现的)，不过虽然 Linux 上面创建进程的代价比较小，但仍旧是不可忽视的，加上进程间数据同步远比不上线程间同步的高效，所以也不是一种完美的方案。

2）I/O 的效率不会随着监视 fd 的数量的增长而下降。select()，poll() 实现需要自己不断轮询所有 fd 集合，直到设备就绪，期间可能要睡眠和唤醒多次交替。而 epoll 其实也需要调用 epoll_wait() 不断轮询就绪链表，期间也可能多次睡眠和唤醒交替，但是它是设备就绪时，调用回调函数，把就绪 fd 放入就绪链表中，并唤醒在 epoll_wait() 中进入睡眠的进程。虽然都要睡眠和交替，但是 select() 和 poll() 在“醒着”的时候要遍历整个 fd 集合，而 epoll 在“醒着”的时候只要判断一下就绪链表是否为空就行了，这节省了大量的 CPU 时间。这就是回调机制带来的性能提升。

3）select()，poll() 每次调用都要把 fd 集合从用户态往内核态拷贝一次，而 epoll 只要一次拷贝，这也能节省不少的开销。

05. 附录

沧海一笑-dj 博客专家

发布了639 篇原创文章 · 获赞 2326 · 访问量 75万+

他的留言板关注