Para completar esta tarea, necesitamos dominar los siguientes puntos de conocimiento de python:
1. Uso del módulo jieba;
2. Operación del archivo de texto txt en
python ; 3. Uso de cuatro contenedores grandes de
python ; 4. Uso del módulo openpyxl.
El código es el siguiente:
import jieba
with open('./toefl100.txt','r',encoding='utf-8') as f:
contents = f.read()
content_list = list(jieba.cut(contents))
word_list =[]
for content in content_list:
if content.isalpha() and len(content)>4:
word_list.append(content.lower())
word_set = set(word_list)
word_dict = {}
max_lengh = 0
for word in word_set:
count = 0
if len(word)>max_lengh:
max_lengh = len(word)
for element in word_list:
if word == element:
count += 1
word_dict[word] = count
print(word_dict)
from openpyxl import Workbook
workbook = Workbook()
ws=workbook.create_sheet()
worksheet= workbook['Sheet']
del workbook['Sheet1']
row_num = 1
for key in sorted(word_dict,key=word_dict.__getitem__,reverse=True):
worksheet['A'+str(row_num)] = key
worksheet['B'+str(row_num)]= word_dict[key]
row_num += 1
workbook.save(filename='Peterwords.xlsx')
Después de ejecutar el código, podemos obtener un archivo de tabla de Excel "Peterwords.xlsx". Después de abrirlo, podemos ver la tabla de frecuencia de palabras TOEFL contadas. El efecto es el siguiente: