1.Python默认字符和文件编码
(1).python3.x 默认的字符编码是Unicode,默认的文件编码是utf-8
(2).python2.x 默认的字符编码是ASCII,默认的文件编码是ASCII
2.Python字符串编码和解码
(1)默认字符串是Unicode类型,该类型字符串只能保存在内存中
(2)bytes类型字符串,可以保存在磁盘和网络间数据传输
(3)字符串从Unicode到bytes,需要编码:str.enconde("utf-8")
(4)字符串从bytes到Unicode,需要解码:str.decode("utf-8")
3.ord()函数和chr()函数
(1)ord()函数返回字符对应的ASCII数值或者Unicode数值
(2)chr()函数返回ASCII数值或者Unicode数值所对应的字符
4.chardet模块:检测其编码方式,然后转换为字符串
(1)pip install chardet
(2)ASCII码类型检测
(3)GBK类型编码检测
5.对于乱码问题
(1)乱码的根源是编码和解码的方式不统一导致的
(2)解决乱码问题就是把编解码方式统一了
6.字符和编码的前世今生(不想了解的直接忽略)
(1)几个重要概念
位(bit) | 计算机的最小单位,是二进制的其中一位(0/1) |
字节(Byte) | 计量存储容量的一种计量单位,1个字节=8个bit |
字符 | 能看得到的文字与符号 |
字符集 | 字符的集合 |
编码 | 把字符转换成计算机可以识别的二进制代码(0/1) |
解码 | 把二进制代码(0/1)转换为人眼可见的字符 |
(2)等我有时间再写。。。回家睡觉