学习python的第二十一天【字符编码】

#字符编码:
二进制#中文发展
ASCII :只能存英文和拉丁字符。一个字符占一个字节,8位
GB2312:只有6000多个中文字符 1980
GBK1.0:存了2万多字符 1995
GB18030: 27000多个中文 2000

万国码 unicode :#世界通用 中介语言
UTF-32:存一个占4个字节
UTF-16:存一个占2个字节/2个以上,65535,能存绝大多数
UTF-8 :是一个可变长的字节,一个英文用ASCII吗来存 占用1个字节,一个中文3个字节.

编码 encode
解码 decode

python 3 以上默认 unicode
encode 在编码的同时,会把数据改成bytes类型
encode 在解码的同时,会把bytes类型转换成字符串
b = byte = 字节类型 = [0-255]

#__author:"hanhankeji"
#date: 2019/12/19
import  sys
print(sys.getdefaultencoding()) #查看默认编码  utf-8
s = "特斯拉"
print(s)
s_to_gbk = s.encode("gbk")
print(s_to_gbk)
utf-8
特斯拉
b'\xcc\xd8\xcb\xb9\xc0\xad'

  

猜你喜欢

转载自www.cnblogs.com/hanhankeji/p/12067684.html