信息领域热词分析系统--python统计 - 代码天地

信息领域热词分析系统--python统计

其他 2019-01-20 12:44:43 阅读次数: 0

统计词语出现的频率，并且按从高到低的顺序报错在文件中

def main():
    file=open("F:\大数据\大作业\分词后的文件\data4_xinxi.txt",'r')
    wordCounts={}    #先建立一个空的字典，用来存储单词 和相应出现的频次
    count=50       #显示前多少条（按照单词出现频次从高到低）
    for line in file:

        lineprocess(line.lower(),wordCounts)  #对于每一行都进行处理，调用lineprocess()函数，参数就是从file文件读取的一行
        items0=list(wordCounts.items())       #把字典中的键值对存成列表，形如：["word":"data"]
        items=[[x,y] for (y,x) in items0]     #将列表中的键值对换一下顺序，方便进行单词频次的排序 就变成了["data":"word"]
        items.sort()            #sort()函数对每个单词出现的频次按从小到大进行排序
    gailv=[]#存储像文件中输入的词语以及概率
    for i in range(len(items)-1,1,-1):   #上一步进行排序之后 对items中的元素从后面开始遍历 也就是先访问频次多的单词
            if items[i][0]<10:
                break;
            zz=items[i][1]+"\t"+str(items[i][0])
            gailv.append(zz)
    f2 = open("F:\大数据\大作业\分词后的文件\data5_xinxi.txt", 'a+',encoding='utf-8')
    for z1 in gailv:
        f2.write(z1)
        f2.write("\n")
    f2.close()


def lineprocess(line,wordCounts):
    for ch in line:   #对于每一行中的每一个字符 对于其中的特殊字符需要进行替换操作
        if ch in "~@#$%^&*()_-+=<>?/,.:;{}[]|\'""":
            line=line.replace(ch,"")
    words=line.split()  #替换掉特殊字符以后 对每一行去掉空行操作,也就是每一行实际的单词数量
    for word in words:
        if word in wordCounts:
            wordCounts[word]+=1
        else:
            wordCounts[word]=1

    #这个函数执行完成之后整篇文章里每个单词出现的频次都已经统计好了


main()

猜你喜欢

转载自www.cnblogs.com/wl2017/p/10294432.html

信息领域热词分析系统--python统计

信息领域热词分析系统--python切词

信息领域热词分析系统--python过滤

信息领域热词分析系统--词云

《信息领域热词分析系统》质量属性分析

信息领域热词分析系统的质量属性

信息领域热词查询统计（成果展示）

信息领域热词查询统计——成果展示

信息领域热词分析系统--详细设计说明书

假期学习【十三】信息领域热词分析系统--整体完成

安全属性战术在系统中的应用（信息领域热词分析）

13 信息领域热词分析部分功能展示

《信息领域热词分析》安全性战术

信息热词分析系统重构

六大质量属性—安全性代码层面描述（以“信息领域热词分析系统”为例）

11 信息化领域热词分类分析及解释第五步按目录爬取热词

10 信息化领域热词分类分析及解释第四步热词引用：爬取跟热词相关的文章链接

信息领域热词分析的-质量属性战术-可用性战术

重构大型数据库作业《信息领域热词分析》实现六中质量属性战术

重构大型数据库作业《信息领域热词分析》实现的六种质量属性

09 信息化领域热词分类分析及解释第三步将清洗完毕的热词添加百度百科解释

07 信息化领域热词分类分析及解释第一步爬取博客园推荐新闻内容

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

顶会热词统计

ElasticSearch 统计搜索热词

假期学习【十二】热词分析系统--初步展示

Python爬取新闻信息，分词统计并画词云

热词分析——性能战术

原型设计（顶会热词统计）

ASP.NET简单热词统计

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)