1.基本概念
文件是指一组相关数据的有序集合,这个数据集有一个名称,叫做文件名。
我们在前面的已经使用到了很多文件,例如源程序文件、目标文件、可执行文件、库文件 (头文件)等。
文件通常是驻留在外部介质(如磁盘等)上的,在使用时才调入内存中来。
操作系统是以文件为单位对数据进行管理的,示意如下:
程序处理文件示意
2.文件分类
从不同的角度可对文件作不同的分类:
(1)从用户的角度看,文件可分为:
特殊文件(标准输入输出文件或标准设备文件)
普通文件(磁盘文件)
(2)从操作系统的角度看,每一个与主机相连的输入、输出设备都看作是一个文件。
例如:
输入文件,终端键盘等
输出文件,显示屏和打印机等
(3)按数据的组织形式:
ASCII文件(文本文件)
每一个字节放一个ASCII代码。
二进制文件
把内存中的数据按其在内存中的存储形式原样输出到磁盘上存放。
例如整数10000D在内存中的存储形式以及分别按ASCII码形式和二进制形式输出如下图所示:
ASCII和二进制存储
ASCII文件和二进制文件的比较:
ASCII文件便于对字符进行逐个处理,也便于输出字符;
但一般占存储空间较多,而且要花费转换时间。
二进制文件可以节省外存空间和转换时间;
但一个字节并不对应一个字符,不能直接输出字符形式。
一般中间结果数据需要暂时保存在外存上,以后又需要输入内存的,常用二进制文件保存。
3.C语言对文件的处理方法
缓冲文件系统:
系统自动地在内存区为每一个正在使用的文件开辟一个缓冲区。
用缓冲文件系统进行的输入输出又称为高级磁盘输入输出。
非缓冲文件系统:
系统不自动开辟确定大小的缓冲区,而由程序为每个文件设定缓冲区。
用非缓冲文件系统进行的输入输出又称为低级输入输出系统。
在UNIX系统下,用缓冲文件系统来处理文本文件,用非缓冲文件系统来处理二进制文件。
ANSI C标准只采用缓冲文件系统来处理文本文件和二进制文件。
C语言中对文件的读写都是用库函数来实现。
二、文件的打开与关闭
1.文件类型指针
定义文件型指针变量:
FILE *fp;
1
fp是一个指向FILE类型结构体的指针变量。
我们使fp指向某一个文件的结构体变量,从而通过该结构体变量中的文件信息能够访问该文件。
如果有n个文件,一般应设n个指针变量,使它们分别指向n个文件,以实现对文件的访问。
定义FILE类型的数组:
FILE f[5];
1
定义了一个结构体数组f,它有5个元素,可以用来存放5个文件的信息。
2.文件的打开(fopen函数)
函数调用:
FILE *fp;
fp = fopen(文件名, 使用文件方式);
1
2
参数说明:
文件名是准备访问的文件的名字;
使用文件方式是读还是写等;
fp指定指向被打开的文件的指针变量。
文件使用方式如下:
方式 含义
r (只读)为输入打开一个文本文件
w (只写)为输出打开一个文本文件
a (追加)向文本文件尾增加数据
rb (只读)为输入打开一个二进制文件
wb (只写)为输出打开一个二进制文件
ab (追加)向二进制文件尾增加数据
r+ (读写)为读/写打开一个文本文件
w+ (读写)为读/写建立一个新的文本文件
a+ (读写)为读/写打开一个文本文件
rb+
wb+ (读写)为读/写建立一个新的二进制文件
ab+ (读写)为读/写打开一个二进制文件
说明:
(1)凡用r方式打开一个文件时,该文件必须已经存在,且只能从该文件读出。
(2)用w打开的文件只能向该文件写入。
若打开的文件不存在,则以指定的文件名建立该文件,若打开的文件已经存在,则将该文件删去,重建一个新文件。
(3)若要向一个已存在的文件追加新的信息,要用a方式打开文件,但此时该文件必须是存在的,否则将会出错。
(4)在打开一个文件时,如果出错,fopen将返回一个空指针值NULL。
在程序中可以用这一信息来判别是否完成打开文件的工作,并作相应的处理。
(5)把一个文本文件读入内存时,要将ASCII码转换成二进制码,而把文件以文本方式写入磁盘时,也要把二进制码转换成ASCII码,因此文本文件的读写要花费较多的转换时间。
对二进制文件的读写不存在这种转换。