python3 中的编码问题 unicode, utf-8, gbk, ascii

1. ASCII是最早的字符集，总共包含127个字符，因为是美国人发明的，127个够他们用了。

2. GBK是ASCII的扩展集，ASCII使用一个字节，即8个二进制位，来表征英文字母和一些符号，一个字节可以最多表示2的8次方即256个字符。前127个被称为ASCII字符集，后续在ASCII的基础上进行扩展，将剩余的127个用来表征汉字，但汉字太多，所以不得不在必要时使用2个字符来表示更多的汉字，被称为GB2312字符集，后来仍然不够，又进一步扩展成GBK字符集。所以在此字符集中，英文占一个字节，汉字则占两个字节。

3. UNICODE也是字符集，包含了世界上所有民族的所有文字，因其一律使用两个字符来表示字符。其同时还有备用方案，即使用4个字节来表示字符，总共可容纳上亿的字符。

4. 由于互联网的出现，UNICODE字符集的传输出现了问题，像英文字符本来需要一个字节就可以保存，如果强行用两个甚至三个四个字节来表示，传输的内容将成倍的增加，这是无法接受的，一定要解决。因此也就带来了UTF-8。

5. UTF-8的意思即以每次传输8bits的形式来进行信息传递。如果一个字节能传输完，就传输一个字节，一个字节不够的，再用更多的字节来表示，下图为UNICODE与UTF-8的对应关系。

Unicode符号范围(十六进制)		UTF-8编码方式(二进制)
起始	终止
0000 0000	0000 007F	0xxxxxxx
0000 0080	0000 07FF	110xxxxx	11110xxx
0000 0800	0000 FFFF	1110xxxx	11110xxx	11110xxx
0001 0000	0010 FFFF	11110xxx	11110xxx	11110xxx	11110xxx

因此，这样就解决了4中提到的问题。

以上内容与python的关系：

1. python3的默认编码方式是unicode。

2. encode与decode方法，如何区分？可以理解为unicode是标准的普通话，如果要改成gbk或者utf-8，就需要encode编码（加密），反之则是decode解码（解密）。

3. python3中正常创建的字符的储存方式是unicode，已经是标准的普通话了，无法再解密了，所以如果对一个字符串使用decode方法会提示 AttributeError: 'str' object has no attribute 'decode'。

4. python3中创建字符串，前面加u代表使用unicode字符集，python3的默认字符集已经是unicode，所以已经不需要加u。

5. python3中创建字符串，前面加b代表使用ASCII字符集，只能创建ASCII字符集中存在的字符，中文字符前加b会报错。

6. python3中处理带有'\x'的字符串，<string>.encode('raw_unicode_escape').decode('utf8')。

下图为python2环境，交互式界面。

Python 2.7.10 (default, Feb 7 2017, 00:08:15)
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.34)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> s='我们'
>>> b=u'我们'
>>> s
'\xe6\x88\x91\xe4\xbb\xac'
>>> b
u'\u6211\u4eec'
>>> print s
我们
>>> print b
我们
>>>

下图为使用python2执行test.py文件。

#! /usr/bin/env python
s = '匆匆'
print(s)

输出结果为：

File "./test.py", line 2

SyntaxError: Non-ASCII character '\xe5' in file ./test.py on line 2, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

添加编码即可：

#! /usr/bin/env python
# -*- encoding: utf-8 -*-
s = '匆匆'
print(s)

whatday

发布了57 篇原创文章 · 获赞 537 · 访问量 485万+

他的留言板关注

python3 中的编码问题 unicode, utf-8, gbk, ascii

猜你喜欢