字符编码详解,文件处理

一.字符编码

(1).储备知识:

①程序运行与三大核心硬件的关系
②程序运行过程中产生的数据最先放在内存中
③python程序运行的三个步骤
python3 D:\a.py

  1. 先启动python解释器
  2. 解释器会将a.py的内容当成普通内存从硬盘读入内存,此时没有语法意义
  3. 解释器会解释执行刚刚读入内存的内存,开始识别python语法

(2).什么是字符编码

字符--------------------(标准)----------------------------数字
字符编码表:存放的是字符与数字的对应关系

1.ASCII:只能识别英文字符
特点:采用8bit对应一个英文字符
8bit = 1Byte

2.gbk:可以识别中文字符串与英文字符
特点:采用16bit对应字符,该字符可以是英文字符,也可以是中文字符

3.shift-JIS:可以识别日文字符与英文字符
4.unicode:可以识别万国字符
特点:2Bytes对应一个字符

字符----------->> Unicode格式的数字
                               |
                         GBK    shift-JIS

中文字符,英文字符-------------------->Unicode二进制数-------------------->gbk二进制数
日文字符,英文字符-------------------->Unicode二进制数-------------------->shift-JIS二进制数
韩文字符,英文字符-------------------->Unicode二进制数-------------------->Euc-kr二进制数
万国字符-------------------->Unicode二进制数-------------------->utf-8二进制数

5.utf-8
1Byte对应英文字符
3Byte对应一个中文字符

1.群雄割据:

英文字符----------------->内存:ASCII二进制数---------------->硬盘:ASCII二进制数
中英文字符----------------->内存:GBK二进制数---------------->硬盘:GBK二进制数
日英文字符------------->内存:shift-JIS二进制数------------>硬盘:shift-JIS二进制数
韩英文字符---------------->内存:Euc-kr二进制数-------------->硬盘:Euc-kr二进制数

2.过渡阶段:

中英文字符----------->内存:Unicode----------gbk---------->硬盘:GBK二进制数
日英文字符--------->内存:Unicode---------shift-JIS-------->硬盘:shift-JIS二进制数
韩英文字符----------->内存:Unicode----------Euc-kr---------->硬盘:Euc-kr二进制数
万国字符----------->内存:Unicode----------utf-8---------->硬盘:utf-8二进制数

内存固定使用:Unicode
我们可以改变的是从内存写入硬盘采用的编码格式

3.分久必合:

万国字符---------------内存:Unicode-------------utf-8--------->硬盘:utf-8二进制数
万国字符---------------内存:utf-8--------------------------------->硬盘:utf-8二进制数

乱码问题:

1.存的时候乱了:采用的字符编码表无法识别输入的字符
存的时候就已经乱了,是无法补救的,取的时候一定也乱了

解决方法:存入硬盘的编码格式应该用utf-8格式

2.存的时候没有乱码:采用的字符编码表可以识别输入的字符
但是取的时候乱码了:采用的字符编码表与当初存的时候用的不是同一张表

解决方法:存的时候用什么编码,取的时候一定要用同样的编码格式

与运行python程序有关的乱码问题:

1.保证运行python程序的前两个阶段不乱码
在python文件的开头加一行:
#coding:文件存的时候用的编码格式

2.保证第三个阶段不乱码
使用python3
如果使用的是python2,应该在符串前加前缀u

编码:
字符-------编码------->Unicode格式的数字----------编码--------->gbk格式的数字
字符-------解码------->Unicode格式的数字<--------解码----------gbk格式的数字

在python3中字符串类型的值在内存中都是Unicode格式的数字

x = '上'
print(x)

在python2中字符串类型的值在内存中都是文件头指定编码格式的数字

# 如果在字符串前加前缀u就把字符串强制存成Unicode
x = u'上' 
print([x,])  # ['\xc9\xcf']
print(x)

encode,decode(编码,解码)

x = '上'
# unicode格式的数字==编码===>其他编码格式的数字
res1 = x.encode('gbk')
print(res1,type(res1)
res2 = x.encode('utf-8')
print(res2,type(res2)

# bytes类型可以理解为一种硬盘的原生格式
# str类型

# 其他编码格式的数字==解码==>Unicode格式数字
x = res1.decode('gbk')
print(x)
y = res2.decode('utf-8')
print(y,type(y))

二.文件处理

1.什么是文件?

文件是操作系统提供给用户/应用程序操作硬盘的一个虚拟单位

2.为何要用文件?

存取硬盘必须使用文件

3.如何用文件?

f = open(文件路径,打开模式)
f.write(数据)
f.close()

应用程序/用户 ------文件对象/文件句柄----------> 遥控器
操作系统 ------------打开文件----------------------> 空调
硬件 -----------------------硬盘

绝对路径与相对路径

绝对路径就是文件的完整路径
相对路径就是和程序在同一个目录下的路径

示例:

# 绝对路径
# windows系统
# D:\python38\Doc\python383
# C:\a\b\c\new.txt

# linux系统
# /a/b/c/d.txt

# file_path=r'C:\a\b\c\new.txt'
# file_path=r'/a/b/c/d.txt'

# 相对路径
# c\d.txt
# d.txt

文件处理案例:

# t模式读取文本文件
f = open(r'aaa\a.txt',mode='rt',encoding='utf-8')
res = f.read()
print(res)
f.close()
# b模式读取文本文件
# f = open(r"aaa\a.txt", mode='rb')
# res=f.read()
# # print(res,type(res))
# x=res.decode('utf-8')  # 自己手动解码
# print(x)
# f.close()

# b模式读取图片文件
f=open('aaa.jpg',mode='rb')
res=f.read()
print(res)
f.close()

猜你喜欢

转载自blog.csdn.net/yikenaoguazi/article/details/107361027
今日推荐