日05午前:テキスト処理

ファイルとは何ですか

ファイルの情報を格納するために使用される、オペレーティングシステムの仮想概念であり、

テキストは何ですか

.TXT / .WORD /た.md /の.py / .xmlファイル/の.ini格納されているテキスト

テキストエディタを使用して、.txtファイルを制御する方法

  1. ファイルのパスを探します
  2. ファイルを開きます
  3. ファイルを変更/読みます
  4. 保持
  5. 近いです
file_path = r'C:\Users\Black\Documents\Python learning\day 05\github.txt'
f = open(file_path) # 把该路径的文件读入内存,只是没有可视化的界面而已
data = f.read() # 读取文件(内容)

3つのモードでファイルを開きます。

R --->読み(読み取り専用書き込みません)

ワット--->書き込み(書き込み専用読めない、空のテキスト)

--->アペンド(のみの追加、読めない書き込み)

file_path = r'C:\Users\Black\Documents\Python learning\day 05\github.txt'

f = open(file_path, 'a', encoding = 'gbk') # encoding 告诉计算机用什么编码格式翻译硬盘中的0和1
print('f.readable:', f.readale())
print('f.writable:', f.writable())

f.write('追加写入')

date = f.read()
print(data)

モードとt B

GBK / UTF8テキストのみのために、RBを開くことによってオーディオモードに - >バイナリ読み取り、無符号化パラメータ、このモードB、Bが単独で使用されず、R /と一緒に使用/ Wと

f = open(r'D:\上海python12期视频\python12期预科班视频\day 05\01 文本处理.mp4','rb')  # 读入内存

data = f.read()

R / W / Aを取得するためにトンパターンが単独で使用されていないテキストファイル、のための、および必須とトンパターン

f = open(r'C:\Users\Black\Documents\Python learning\day 05\github.txt', 'rt', encoding = 'gbk')
data = f.read()
print(data)

高度なアプリケーション

R +読み出し書き込み可能

+読み出し書き込み可能

W +読み書き可能(空ファイル)

自動インデントの後にシャットダウンします開いているファイルを使用します

with open(r'C:\Users\Black\Documents\Python learning\day 05\github.txt', 'r+', encoding = 'gbk') as f:
    # 这个缩进内部的代码都是文件打开的状态
    data = f.read
    print(data)

+テキスト処理ワードクラウド分析

import jieba
import wordcloud
import imageio

# 读取文件内容
with open(r'C:\Users\Black\Documents\Python learning\day 05\github.txt', 'r+', encoding = 'gbk') as f:    
    data = f.read()

# 使用结巴对文件内容进行切割
data_list = jieba.lcut(data)
data = ' '.join(data_list)

# 将github logo图片读入内存
img = imageio.imread(r'C:\Users\Black\Pictures\githublogo.jpg')

# 使用词运模块生成词云图
w = wordcloud.WordCloud(background_color= 'white', mask= img, font_path = r'C:\Windows\Fonts\simsun.ttc')
w.generate(data)
w.to_file('github.jpg')

結果は以下のとおりであります

おすすめ

転載: www.cnblogs.com/bigb/p/11419636.html