20190827

20190827

1.文本处理

a.什么是文件

文件是操作系统提供的一个虚拟概念,拿来存储信息的

b.什么是文本

.TXT/.Word/.md/.py/.xml/.ini 存储的是文字

c.视频/音频文件du

多媒体文件

d.我们如何通过文本编辑器去控制txt文件

  1. 找到文件路径
  2. 通过记事本打开文件
  3. 读取/修改操作
  4. 保存
  5. 关闭文件

代码

file_path='文本路径'     #将文本路径设置为变量file_path
f=open(file_path)   #把该路径的文件读入内存,只是没有可视化界面而已
data=f.read    #读取文件   .read    (命名为data数据变量)
print(data)     # 打印读取出的文件
f.close         #关闭

e.打开文件的三种模式

r-- read (只可读,不可写)

w--write (只可写不可读,同时清空文本)

a---append (只可读不可写,在最后追加值)

file_path='文本路径'     #将文本路径设置为变量file_path
f=open(file_path,"a",encoding="gbk")
#打开文本路径  , 打开方式是a  , 将编码格式更改以符合文本
data=f.read()
#读取f(即文本路径中的文件)并赋值给变量data
print(data)

f.撤销删除

右键点击文本--》 local history --》 show history

g.文本高级补充

t模式与b模式

b模式(针对音频与视频)

b不单独使用,一般与r/w/a一起配合使用

rb---read b

gbk/utf8只针对文本,所以音频通过rb模式打开-->读取二进制,b模式下没有encoding这个参数,
b不单独使用,一般与r/w/a一起配合使用
f = open(r'D:\上海python12期视频\python12期预科班视频\day 05\01 文本处理.mp4','rb')  # 读入内存## 
#f=open(r为防止地址出现/读取不出 "想要读取的地址","读取模式rb")
data = f.read()   #读取出代码值到data变量中
print(data)
f.close()        #关闭

t模式(仅用于文本)

t不单独使用,一般与r/w/a一起配合使用 r 默认为 r t模式

with as

加上with会自动关闭 即with open

with open(r'D:\上海python12期视频\python12期预科班视频\day 05\关于实施乡村振兴战略的意见.txt','r+',encoding='utf8') as f:   
# 这个缩进内部的代码都是文件打开的状态   as指的是将..作为
# 即不需要定义直接as 为一个变量 加上: 回车,会在下一行缩进
# 直到结束缩进,自动关闭
data = f.read()    
print(data)

2.文本处理与词云分析

import jieba           
import imageio
import wordcloud      #导入库

# 1. 读取文件内容
with open(r'D:\上海python12期视频\python12期预科班视频\day 05\huijiadeyouhuo.txt','r+',encoding='utf8') as fr:          #找到路径并读取至内存赋值给变量"fr"
  
    data = fr.read()         #读取fr变量至data

# 2. 使用结巴模块对文件内容切割
jieba.add_word('回家的诱惑')  # 让"回家的诱惑"成为一个单词
jieba.del_word('女士')        #删除固定的词汇
jieba.del_word('先生')         
jieba.del_word('小马')
data_list = jieba.lcut(data)   #把读取的变量用.lcut切割
data = ' '.join(data_list)     #用join变为字符串

# 3. 找到一张洪世贤的图片
img = imageio.imread(r'D:\上海python12期视频\python12期预科班视频\day 05\hongshixian.jpg')



# 4. 使用词云模块生成词云
w = wordcloud.WordCloud(background_color='white',mask=img,font_path=r'C:\Windows\Fonts\simsun.ttc',max_words=150)
w.generate(data)
w.to_file('nihaosaoa.png')

猜你喜欢

转载自www.cnblogs.com/fwzzz/p/11420332.html
今日推荐