文件及其编码

1、计算机中的各种文件本质上都是以二进制的形式存在的,之所以有各种类型的文件,是因为不同类型的文件使用的编码方式不一样。

2、标准ascii编码(American Standard Code for Information Interchange),使用8个bit编码一个字符,指定了128个字符的编码,其中最高位规定统一取值为0。

3、标准ascii编码只能编码有限的字符,其他欧洲国家为了编码自己国家的语言,使用了标准ascii码空闲的部分,即扩展了标准ascii码。

4、标准ascii码或者扩展ascii码不能编码汉字及其他象形文字,为此中国制定了gb2312和gbk。

5、由于各个国家制定了多种不同类型的编码方式,同一个二进制序列可能有多种编码解释,为了统一编码,iso制定了unicode编码方式,使用16个bit标示一个字符,可以包括所有字符的编码,需要说明的是,unicode只规定了符号的二进制编码,却没有规定这个二进制编码应该如何存储。unicode的出现解决了之前各种编码并存的混乱局面,但是也也有很多不完美的地方,比如如何与之前的ascii码作区分、空间占用大等问题。

6、unicode在很长时间内无法推广,直到互联网的出现,为了解决unicode的传输问题,出现了很多utf标准,其中应用最为广泛的是utf-8,它是unicode编码的一种实现方法,utf-8是一种变长的编码方式,可以用1-4个字节表示一个字符,utf-8使得编码无国界,这样就可以表示世界上所有国家的字符了。

参考连接:

1、https://www.cnblogs.com/kingstarspe/p/ASCII.html

2、https://www.zhihu.com/question/23374078 

3、https://blog.csdn.net/charleslei/article/details/50993861

 
发布了16 篇原创文章 · 获赞 0 · 访问量 819

猜你喜欢

转载自blog.csdn.net/shengruxiahua2571/article/details/78818488