일 05 오전 : 텍스트 처리

파일은 무엇입니까

파일 정보를 저장하는 데 사용되는 운영 체제의 가상 개념이다

텍스트는 무엇인가

이 .txt / .word / .md / 평 / .XML / .INI 저장된 텍스트

텍스트 편집기를 사용하여 .txt 파일을 제어하는 ​​방법

  1. 파일 경로를 찾습니다
  2. 파일을 엽니 다
  3. 파일을 수정 읽기 /
  4. 보유
  5. 가까운
file_path = r'C:\Users\Black\Documents\Python learning\day 05\github.txt'
f = open(file_path) # 把该路径的文件读入内存,只是没有可视化的界面而已
data = f.read() # 读取文件(内容)

세 가지 모드로 파일을 엽니 다

R ---> 읽기 (읽기 전용 쓸 수 없습니다)

w ---> 쓰기 (쓰기 전용 읽을 수, 빈 텍스트)

---> APPEND (만 읽을 추가 쓰기)

file_path = r'C:\Users\Black\Documents\Python learning\day 05\github.txt'

f = open(file_path, 'a', encoding = 'gbk') # encoding 告诉计算机用什么编码格式翻译硬盘中的0和1
print('f.readable:', f.readale())
print('f.writable:', f.writable())

f.write('追加写入')

date = f.read()
print(data)

모드 및 t B

GBK은 / 텍스트 만하므로 RB를 열어 음성 모드 UTF8 -> 이진 판독 파라미터의 부호화 모드 (B)는, B /를 함께 사용하여 A / W (R)과, 단독으로 사용되지 않는다

f = open(r'D:\上海python12期视频\python12期预科班视频\day 05\01 文本处理.mp4','rb')  # 读入内存

data = f.read()

텍스트 파일 t 패턴은 t 패턴 r은 / A / W 얻기 위해 필수로 단독으로 사용되지 않으며,

f = open(r'C:\Users\Black\Documents\Python learning\day 05\github.txt', 'rt', encoding = 'gbk')
data = f.read()
print(data)

고급 응용 프로그램

R + 판독 쓰기

A + 판독 쓰기

w + 읽기 및 쓰기 (빈 파일)

자동 들여 쓰기 한 후 종료됩니다 열려있는 파일과 사용

with open(r'C:\Users\Black\Documents\Python learning\day 05\github.txt', 'r+', encoding = 'gbk') as f:
    # 这个缩进内部的代码都是文件打开的状态
    data = f.read
    print(data)

+ 텍스트 처리 단어 구름 분석

import jieba
import wordcloud
import imageio

# 读取文件内容
with open(r'C:\Users\Black\Documents\Python learning\day 05\github.txt', 'r+', encoding = 'gbk') as f:    
    data = f.read()

# 使用结巴对文件内容进行切割
data_list = jieba.lcut(data)
data = ' '.join(data_list)

# 将github logo图片读入内存
img = imageio.imread(r'C:\Users\Black\Pictures\githublogo.jpg')

# 使用词运模块生成词云图
w = wordcloud.WordCloud(background_color= 'white', mask= img, font_path = r'C:\Windows\Fonts\simsun.ttc')
w.generate(data)
w.to_file('github.jpg')

결과는 다음과 같다 있습니다

추천

출처www.cnblogs.com/bigb/p/11419636.html