作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696
1.列表,元组,字典,集合分别如何增删改查及遍历。
2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:
- 括号
- 有序无序
- 可变不可变
- 重复不可重复
- 存储与查找方式
3.词频统计
-
1.下载一长篇小说,存成utf-8编码的文本文件 file
2.通过文件读取字符串 str
3.对文本进行预处理
4.分解提取单词 list
5.单词计数字典 set , dict
6.按词频排序 list.sort(key=lambda),turple
7.排除语法型词汇,代词、冠词、连词等无语义词
- 自定义停用词表
- 或用stops.txt
8.输出TOP(20)
- 9.可视化:词云
排序好的单词列表word保存成csv文件
import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')
线上工具生成词云:
https://wordart.com/create
作业博客要求:
- 文字作业要求言简意骇,用自己的话说明清楚。
- 编码作业要求放上代码,加好注释,并附上运行结果截图。
答:
exclude={'a','i','you','and','the','to','be','is','in','or','will'}#定义停用词表 f=open('news.txt','r',encoding='utf-8')#打开文件 text=f.read() print('text') f.close() text=text.lower() sep=',.?;' for s in sep: text=text.replace(s,' ') bigList = text.split()#把text转化为List列表 print(bigList) print('you',bigList.count('you')) bigSet = set(bigList)#把List列表转换为集合 bigSet=bigSet-exclude#去掉停用词 print(bigSet) bigDict={}#把集合转换为字典 for word in bigSet: bigDict[word]=bigList.count(word) print(bigDict) print(bigDict.items()) word = list(bigDict.items()) word.sort(key=lambda x:x[1],reverse=True)#排列 print(word) import pandas as pd#生成词云 pd.DataFrame(data=word).to_csv('star.csv',encoding='utf-8')