内核态与用户态、系统调用与库函数、文件IO与标准IO、缓冲区等概念介绍

Linux提供了两套可以用于文件的IO接口

文件IO： open、create、close、lseek、read、write、fcntl、ioctl等
标准IO： FILE、fopen、fwrite、fread、等

为了理解文件IO和标准IO的区别，可能要先理解下用户态与内核态，系统调用与库函数的概念

用户态和内核态

什么是用户态和内核态

内核态： CPU可以访问内存所有数据, 包括外围设备, 例如硬盘, 网卡. CPU也可以将自己从一个程序切换到另一个程序
用户态：只能受限的访问内存, 且不允许访问外围设备. 占用CPU的能力被剥夺, CPU资源可以被其他程序获取

区分用户态和内核态的作用

为了限制不同程序的访问能力，防止它们获取随意获取其他程序或外围设备的数据
限制用户态的访问能力，还可以防止外围设备的访问冲突

用户态和内核态的切换

程序都是工作在用户态，但是有时候程序需要访问一些受限的数据（如从硬盘读数据，从键盘获取输入等），这是就需要切换到内核态。切换的方式一般时调用系统调用。用户态通过系统调用通知内核态，需要访问哪些受限的数据，或操作哪些受限的设备。内核态就帮助用户态完成

用户态和内核态小结

简单的说，用户程序只能访问内存，而操作系统能访问所有数据。用户程序工作的模式即是用户态，当用户程序想要访问受限的数据时，就需要向操作系统发请求，让操作系统帮忙完成。 操作系统工作的模式即内核态

库函数和系统调用

库函数工作在用户态，系统调用工作在内核态

所有的操作系统都会提供一些服务用以访问/操作设备等，操作系统会为这些服务提供接口。这些接口就是系统调用。用户态程序通过调用系统调用可以切换到内核态，访问内存意外的数据，操作外围设备等

不同的操作系统提供的系统调用会有所差异

Unix为每个系统调用在标准C库中设置一个具有同样名字的函数。一般我们是称这些函数为系统调用。（如标准C库中有函数write(), write()函数直接使用write系统调用相应的内核服务）。所以一般说write()，指的不是write()这个函数，而是系统调用write

标准C库，或是其他库会定义一些函数，这些函数称之为库函数。很多库函数是跨平台的。虽然有些库函数最终会调用系统调用，但不少库函数会根据具体的操作系统选用响应的系统调用接口

有些库函数仅仅是操作内存，不访问硬盘等外围设备的数据，因此最终并不会调用系统带哦用。即：并不是所有的库函数最终都要使用系统调用的，如：strcpy、atoi等

I/O的概念

I/O:输入输出

既然是输入输出，就要有输入输出设备（一般内存不算输入输出设备）。如硬盘、键盘、终端等都可以作为输入输出设备

用户态是不能访问硬盘、键盘、终端这些外围（虚拟）设备的，因此需要切换到内核态。用户态和内核态的切换是会产生开销的

举个例子，程序要从硬盘上的文件读取数据，其过程如下：

程序通过系统调用（如read）告诉操作系统想要读取某个硬盘文件的内容。
切换到内核态（这里需要从用户态向内核态传递，要读取的是哪个文件等信息）
系统调用（工作在内核态）读取文件内容。
切换到用户态（这个过程包含了把系统调用读取到的数据拷贝到用户态的过程）
程序得到数据

文件I/O——不带缓冲的I/O

文件IO相关的函数open、close、read、write等等

这里我们主要以write()函数为例，介绍一些文件IO的特性

文件IO是不带缓冲的，所谓不带缓冲，即每调用一次文件IO（如write），就进行一次用户态与内核态的切换

调用一次write，就需要立即把数据从用户态拷贝到内核态

标准I/O——带缓冲的I/O

标准IO相关的函数主要有：fopen、fclose、fread、fwrite、fgetc等等

标准IO是带缓冲的

标准IO提供缓冲的目的是尽可能减少使用read和write调用的次数（也就是用户态和内核态切换的次数）

所谓带缓冲，其实就是在调用fwrite的时候，先把数据放在缓冲区。不直接使用系统调用，切换到内核态。而是等到缓冲区满或是调用fflush等条件满足时，再一次性调用write，把数据拷贝到内核空间

缓冲

缓冲是标准IO库提供的，缓冲区存在于用户空间（不管是fread还是fwrite）。对于fwrite，根据上面的例子很好理解。对于fread而言，就是在调用fread的时候，切换到内核态，内核态读取缓冲去能够接受的大小的数据（一般会多余此次fread期望的数据），然后返回给fread函数。下次再调用fread的时候，可能只需要从缓冲区读取，而不需要再到内核空间拷贝了

标准IO有三种缓冲类型：全缓冲、 行缓冲、 不带缓冲

文件IO与标准IO的一些对比

效率对比

文件IO不带缓冲，因此每调用write，就需要做用户态和内核态的切换，把数据从用户态切换到内核态

标准IO带缓冲，调用fwrite的时候，先把数据保存在缓冲区，等待缓冲区满或调用fflush等条件满足时，再调用write，一次性把多次fwrite的数据

因此，从效率上看，带缓冲的IO作用户态与内核态切换的次数较少，效率比较高。没有特殊要求的话，一般应该选用fopen、fwrite系列带缓充的IO

文件IO与标准IO的应用场景——多线程日志系统为例

在多线程日志系统中，每个线程打开一个日志文件的描述符

如果使用带缓冲的IO，最终可能导致日志的顺序发生错乱，可能影响阅读。因此如果对多线程的日志顺序有要求的话，可能需要使用不带缓冲的IO

另一方面，在测试中发现，使用标准IO时，每次调用write的数据并不一定都是多次完整的fwrite的数据。可能会有一些fwrite的数据被分为两次write。举个例子，每次调用fwrite写100个字节的数据，而缓冲区为550个字节，那么第6次fwrite的数据可能就被截断分成两次write。（这是我在centOS7.2上的测试结论，目前不清楚是否可以配置在fwrite写缓冲之前先判断缓冲区剩余空间是否充足，不足时先调用write，再把完整的fwrite数据写入缓冲）。（就刚刚那个例子来说，就是不知道是否可以配置，在第6次fwrite写缓冲之前先write前面的500字节）

本篇博客转载自博主：《轮子学长》