9.27

（1）

fo = open('girl.txt','r',encoding = 'utf-8')   #导入文件
girl = fo.read().lower()   # 设定全部小写
fo.close()       #关闭文件
print(girl)

x = ',.:?!_-;'  #把出现的符号定义成一个字符串
for y in x :
    girl.replace(y,' ')     #用空格替换字符串中的标点符号以及特殊符号
print(y)

stra = girl.split()  #split以空格为界限拆分成字符串
print(len(stra),stra)   #len(stra)  求列表元素总个数

strb=set(stra)     #去掉重复元素变成集合
m = {'a','the','and','i','you','in','no'}   #定义一个集合，集合内容为虚词等
strb=strb-m              #利用集合特性，去除集合 strb 中的虚词等词性的单词
print(len(strb),strb)


strd = {}
for word in strb:   #进行遍历，把集合 strb 中的元素放到名为 strd  的空字典中
    strd[word] = stra.count(word)

print(len(strd),strd)

wcList = list(strd.items())   # list 把字典变成元素以元祖形式出现的列表
wcList.sort()  #按照默认方式进行排序：英文字母顺序
print(wcList)

（2）

a = ['Tatr','Bofgj','Tatr','李三','Tatr']

print(a)
a.sort()
print(a)


b = [85,60,31,76,87]
c = dict(zip(a,b))      #连接a,b变为字典
print(c)

cList = list(c.items())   # list 把字典变成元素以元祖形式出现的列表
print(cList)

def takeSecond(elem):   #按照第二位置
    x = elem[1]
    return x


cList.sort(key=takeSecond,reverse=True)   #进行降序排列
print(cList)

（3）

fo = open('zhuzi.txt','r',encoding = 'utf-8')   #导入文件
zhuzi = fo.read().lower()   # 设定全部小写
fo.close()       #关闭文件
print(zhuzi)


import jieba

print(list(jieba.cut(zhuzi)))
print(list(jieba.cut(zhuzi,cut_all=True)))
print(list(jieba.cut_for_search(zhuzi)))

猜你喜欢