pyhton关于编码Unicode，utf-8

1.Unicode和utf-8
简单来说：
Unicode 是「字符集」
UTF-8 是「编码规则」,是Unicode的实现方式。

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。
python3 内存中使用的字符串全部是 unicode 码，但是网络传输的数据或者从磁盘读取的数据是把 unicode 码转换过的数据，通常情况下可能是 utf-8 格式的数据，所以如果从网络中读取或者磁盘中读取其实就是把 utf-8 格式的数据解码成 unicode 码数据，相反如果想把内存中 unicode 码数据存储到磁盘或者网络中需要对 unicode 码进行编码，通常可以采用 utf-8 的形式进行编码。

在这里插入图片描述

由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。
2.python 查看默认编码方式

import sys
print(sys.getdefaultencoding())
#result
utf-8

3.Windows操作系统不同编码方式
四个选项：ANSI，Unicode，Unicode big endian 和 UTF-8。

1）ANSI是默认的编码方式。对于英文文件是ASCII编码，对于简体中文文件是GB2312编码（只针对Windows简体中文版，如果是繁体中文版会采用Big5码）。

2）Unicode编码指的是UCS-2编码方式，即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。

3）Unicode big endian编码与上一个选项相对应。

Unicode码可以采用UCS-2格式直接存储。以汉字”严“为例，Unicode码是4E25，需要用两个字节存储，一个字节是4E，另一个字节是25。存储的时候，4E在前，25在后，就是Big endian方式；25在前，4E在后，就是Little endian方式。
这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》。在该书中，小人国里爆发了内战，战争起因是人们争论，吃鸡蛋时究竟是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开。为了这件事情，前后爆发了六次战争，一个皇帝送了命，另一个皇帝丢了王位。
因此，第一个字节在前，就是”大头方式“（Big endian），第二个字节在前就是”小头方式“（Little endian）。
那么很自然的，就会出现一个问题：计算机怎么知道某一个文件到底采用哪一种方式编码？
Unicode规范中定义，每一个文件的最前面分别加入一个表示编码顺序的字符，这个字符的名字叫做”零宽度非换行空格“（ZERO WIDTH NO-BREAK SPACE），用FEFF表示。这正好是两个字节，而且FF比FE大1。
如果一个文本文件的头两个字节是FE FF，就表示该文件采用大头方式；如果头两个字节是FF FE，就表示该文件采用小头方式。

4）UTF-8编码。
4.python3内的存储和转化
python3内部字符串在内存中就以Unicode形式存在‘A’和‘\u0041’没有任何区别， '\u4e2d’和’中’没有任何区别，故str类型也可称为Unicode字符串，通过以下方法编码为Unicode形式：

>>>'小米'.encode('unicode-escape')
b'\\u5c0f\\u7c73'
#转化为utf-8
>>>s='小米'.encode('unicode-escape')
>>> s.decode('unicode-escape').encode()
b'\xe5\xb0\x8f\xe7\xb1\xb3'

pyhton关于编码Unicode，utf-8

猜你喜欢