读取txt文件,找到里面的高频英文词汇

#读取txt文件,找到里面的高频词汇
#1、首先打开文件.该函数生成的文件是字符串类型的.并将所有字符小写化,字符替换成空格
def opentxt():#name是文件名hamelet.txt
    txt=open("hamlet.txt","r").read()
    txt=txt.lower()
    for i in "'!#$%&()*+,-./:;<=>?@[\\]^_‘{|}~":#遍历字符串的功能
        txt=txt.replace(i,"")#类似于word中的替换
    lsword=txt.split()#单词返回列表
    dicword={}#建立字典,键是单词,键值是该单词出现的次数
    for i in lsword:
        dicword[i]=dicword.get(i,0)+1
    lsdcword=list(dicword.items())#字典是没法排序的,所以要把转化为元组组成的列表
    lsdcword.sort(key=lambda x:x[1],reverse=True)#对列表进行排序,但是列表里面是元组,所以可以用sort中的lambda,对元组中的第二列进行排序

    return lsdcword
ls=opentxt()
print(ls)
newdic={}
for i in range(10):
    print("单词{}的出现次数{}".format(ls[i][0], ls[i][1]))
    newdic[ls[i][0]]=ls[i][1]
print(newdic)

#将只有空格和字母的字符串,以空格为准分割成单词

#统计每个单词的数量,并排序

猜你喜欢

转载自blog.csdn.net/yu0395/article/details/113069031