一、字符编码基础知识
1、windows默认gbfk编码
2、unicode万国码,可以显示各个国家的字符,一个字符占2个字节,16位(python3.0里所有字符都是unicode编码)
3、ascii一个英文占1个字节,8位,不能存中文
4、utf-8可变长的字符编码,是unicode的扩展,所有的英文字符依然按ascii码的方式存储,所有中文统一按3个字节
5、python3.0里返回编码格式:
sys.getdefaultencoding()
二、字符编码转换方法
1、以unicode为中介,转换不同的字符编码
举例(gbk转utf-8):
file_unicode=file_gbk.decode("gbk") #先从gbk转为unicode
file_utf-8=file_unicode.encode("utf-8") #再从unicode转为utf-8
三、其他
1、若文件编码为非unicode,则需在python开头声明,否则可能会出现乱码
举例(文件为gbk):
#-*- coding:gbk -*-