Python中is与“==”和一些编码的问题

is和==的区别

        1. id()

        通过id()我们可以查看到一个变量表示的值在内存中的地址。

s = 'Python'
print(id(s))
s = "Python"
print(id(s))
lst = [1, 2, 3]
print(id(lst))
lst1 = [1, 2, 3]
print(id(lst1))

运行结果

10336608
10336608
14193480
14193416


Process finished with exit code 0

        得出结论:字符串的数据地址都是一样的,而列表数据地址是不确定的。

        2. 小数据池

        又叫常量池,把我们使用过的值存储在小数据池中.供其他的变量使用。

        小数据池给数字和字符串使用, 其他数据类型不存在。

        对于数字: -5~256是会被加到小数据池中的. 每次使用都是同一个对象。

        对于字符串:

        1. 如果是纯文字信息和下划线. 那么这个对象会被添加到小数据池。

        2. 如果是带有特殊字符的. 那么不会被添加到小数据池. 每次都是新的。

        3. 如果是单一字母*n的情况. 'a'*20, 在20个单位内是可以的. 超过20个单位就不会添加到小数据池中。

        注意(一般情况下): 在py文件中. 如果你只是单纯的定义一个字符串. 那么一般情况下都是会被添加到小数据池中的. 我们可以这样认为: 在使用字符串的时候, python会帮我们把字符串进行缓存, 在下次使用的时候直接指向这个字符串即可. 可以节省很多内存.

        3. ==

        双等表示的是判断是否相等, 注意. 这个双等比较的是具体的值。而不是内存地址。

s1 = "哈哈"
s2 = "哈哈"
print(s1 == s2) # True
print(s1 is s2) # True 原因是有数据池的存在,导致两个变量指向的是同个对象.
l1 = [1, 2, 3]
l2 = [1, 2, 3]
print(l1 == l2) # True, 值是样的
print(l1 is l2) # False, 值是假的

运行结果:

True
True
True
False


Process finished with exit code 0

        总结:

        is比较的是地址,==比较的是值


一些编码问题

        1. python2中:默认使用的是ASCII码. 所以不支持中文,如果需要在Python2中更改编码,需要在文件的开始编写:

        # -*- encoding:utf-8 -*-

        2. python3中: 内存中使用的是unicode码。

        3. ASCII码:最早的编码. 里面有英大写写字母, 小写字母, 数字, 一些特殊字符. 没有中文,8个01代码,8个bit,1个byte。

        4. GBK: 中文国标码, 里面包含了ASCII编码和中文常见编码. 16bit,2个byte。

        5. UNICODE: 万国码, 里面包含了全世界所有国家文字的编码. 32个bit, 4个byte, 包含了ASCII码。

        6. UTF-8: 可变长度的万国码. 是unicode的一种实现. 最小字符占8位 。

        (1). 英文: 8bit = 1byte 

        (2). 欧洲文字:16bit = 2byte     

        (3). 中文:24bit = 3byte

        综上, 除了ASCII码以外, 其他信息不能直接转换。

        在python3的内存中. 在程序运行阶段. 使用的是unicode编码. 因为unicode是万国码。什么内容都可以进行显示. 那么在数据传输和存储的时候由于unicode比较浪费空间和资源. 需要把unicode转存成UTF-8或者GBK进行存储. 怎么转换呢. 在python中可以把文字信息进行编码.编码之后的内容就可以进行传输了. 编码之后的数据是bytes类型的数据.其实啊. 还是原来的数据只是经过编码之后表现形式发生了改变而已。

        bytes的表现形式:

        1. 英文b'python' 英文的表现形式和字符串没什么两样。

        2. 中文 b'\xe4\xb8\xad' 这是一个汉字的UTF-8的bytes表现形式。

s = "python"
print(s.encode("utf-8")) # 将字符串编码成UTF-8
print(s.encode("GBK")) # 将字符串编码成GBK

s = ""
print(s.encode("UTF-8")) # 编码成UTF-8
print(s.encode("GBK")) # 编码成GBK

运行结果:

b'python'
b'python'
b'\xe4\xb8\xad'
b'\xd6\xd0'


Process finished with exit code 0

        总结: 

        英文编码之后的结果和源字符串一致。

        中文编码之后的结果根据编码的不同. 编码结果也不同. 我们能看到. 一个中文的UTF-8编码是3个字节. 一个GBK的中文编码是2个字节.编码之后的类型就是bytes类型. 在网络传输和存储的时候我们python是保存和存储的bytes类型. 那么在对方接收的时候. 也是接收的bytes类型的数据. 我们可以使用decode()来进行解码操作. 把bytes类型的数据还原回我们熟悉的字符串:

s = "我叫李嘉诚"
print(s.encode("utf-8")) # 编码
b'\xe6\x88\x91\xe5\x8f\xab\xe6\x9d\x8e\xe5\x98\x89\xe8\xaf\x9a'
print(b'\xe6\x88\x91\xe5\x8f\xab\xe6\x9d\x8e\xe5\x98\x89\xe8\xaf\x9a'.decode("utf-8")) # 解码

运行结果:

b'\xe6\x88\x91\xe5\x8f\xab\xe6\x9d\x8e\xe5\x98\x89\xe8\xaf\x9a'
我叫李嘉诚


Process finished with exit code 0

        编码和解码的时候需要制定编码格式。

猜你喜欢

转载自blog.csdn.net/qq_33567641/article/details/80975283
今日推荐