Linux Sendfile 的原理与优点

sendfile 函数在两个文件描写叙述符之间直接传递数据(全然在内核中操作，传送)，从而避免了内核缓冲区数据和用户缓冲区数据之间的拷贝，操作效率非常高，被称之为零拷贝。

sendfile 函数的定义例如以下：

#include<sys/sendfile.h>
ssize_t sendfile(int out_fd,int in_fd,off_t*offset,size_t count);

传统方式 read/write send/recv

在传统的文件传输里面（read/write方式），在实现上事实上是比較复杂的，须要经过多次上下文的切换。我们看一下例如以下两行代码：

read(file, tmp_buf, len);
write(socket, tmp_buf, len);

以上两行代码是传统的read/write方式进行文件到socket的传输。

当须要对一个文件进行传输的时候，其详细流程细节例如以下：

调用 read 函数，文件数据被 copy 到内核缓冲区。
read 函数返回。文件数据从内核缓冲区 copy 到用户缓冲区。
write 函数调用。将文件数据从用户缓冲区 copy 到内核与 socket 相关的缓冲区。
数据从 socket 缓冲区 copy 到相关协议引擎。

以上细节是传统 read/write 方式进行网络文件传输的方式，我们能够看到，在这个过程其中。文件数据实际上是经过了四次 copy 操作：

硬盘 —> 内核buf —> 用户 buf —> socket 相关缓冲区(内核) —> 协议引擎

新方式 sendfile

而 sendfile 系统调用则提供了一种降低以上多次 copy。提升文件传输性能的方法。

sendfile 系统调用是在 2.1 版本号内核时引进的：

sendfile(socket, file, len);

执行流程例如以下：

sendfile 系统调用，文件数据被 copy 至内核缓冲区
再从内核缓冲区 copy 至内核中 socket 相关的缓冲区
最后再 socket 相关的缓冲区 copy 到协议引擎

相较传统 read/write 方式，2.1 版本号内核引进的 sendfile 已经降低了内核缓冲区到 user 缓冲区。再由 user 缓冲区到 socket 相关缓冲区的文件 copy，而在内核版本号 2.4 之后，文件描写叙述符结果被改变，sendfile 实现了更简单的方式，系统调用方式仍然一样，细节与 2.1 版本号的不同之处在于，当文件数据被拷贝到内核缓冲区时，不再将全部数据 copy 到 socket 相关的缓冲区，而是只将记录数据位置和长度相关的数据保存到 socket相关的缓存，而实际数据将由 DMA 模块直接发送到协议引擎，再次降低了一次 copy 操作。