Python3 进阶---字符集和编码

1.Python默认字符和文件编码

(1).python3.x 默认的字符编码是Unicode,默认的文件编码是utf-8       

(2).python2.x 默认的字符编码是ASCII,默认的文件编码是ASCII

2.Python字符串编码和解码

(1)默认字符串是Unicode类型,该类型字符串只能保存在内存中

(2)bytes类型字符串,可以保存在磁盘和网络间数据传输

(3)字符串从Unicode到bytes,需要编码:str.enconde("utf-8")

(4)字符串从bytes到Unicode,需要解码:str.decode("utf-8")

         

3.ord()函数和chr()函数

(1)ord()函数返回字符对应的ASCII数值或者Unicode数值

         

(2)chr()函数返回ASCII数值或者Unicode数值所对应的字符

         

4.chardet模块:检测其编码方式,然后转换为字符串

(1)pip install chardet

(2)ASCII码类型检测

        

(3)GBK类型编码检测

        

5.对于乱码问题

(1)乱码的根源是编码和解码的方式不统一导致的

(2)解决乱码问题就是把编解码方式统一了

6.字符和编码的前世今生(不想了解的直接忽略)

(1)几个重要概念

位(bit) 计算机的最小单位,是二进制的其中一位(0/1)
字节(Byte) 计量存储容量的一种计量单位,1个字节=8个bit
字符 能看得到的文字与符号
字符集 字符的集合
编码 把字符转换成计算机可以识别的二进制代码(0/1)
解码 把二进制代码(0/1)转换为人眼可见的字符

(2)等我有时间再写。。。回家睡觉

猜你喜欢

转载自blog.csdn.net/qq_19982677/article/details/108063883