统计文档中前5个高频词个数并输出 - 代码天地

统计文档中前5个高频词个数并输出

其他 2019-08-30 11:18:07 阅读次数: 0

import jieba

ls="中国是一个伟大的国家，是一个好的国家"
print('原始文档为：',ls)
counts={} # 定义统计字典
words=jieba.lcut(ls)
print('分好的词组为：',words)

for word in words:
    counts[word]=counts.get(word,0)+1
print('生成的字典为：',counts)
print('字典的元素为：',counts.items())
#字典元组转换为列表
items=list(counts.items())
print('counts的元素生成新的列表：',items)
#列表按第2个值进行排序-降序reverse=True，默认升序 
items.sort(key=lambda x:x[1],reverse=True)

print('按元组中第二维值排序后的列表为：',items)
#转出列表前5个
for i in range(5):
    word,count=items[i]
    print("{0:<10}---{1:>5}".format(word,count))

#------------

for word in words:
    if len(word) ==1:   #增加一个判断是否为词组
        continue
    else:
        counts[word] = counts.get(word,0)+1

猜你喜欢

转载自www.cnblogs.com/huigebj/p/11433878.html

统计文档中前5个高频词个数并输出

统计高频词

统计哈姆雷特文本中高频词的个数

Python高频词统计

利用jieba实现分词、高频词统计、词性标注

Python快速统计文件中高频词

如何从大量数据中找出高频词

如何从大量数据中找出高频词？

统计托福高频词汇

45个高频词的一词多义和固定搭配

819. Most Common Word 统计高频词（暂未被禁止）

运用jieba库寻找高频词

面试者简历的分析（高频词）

（笔记）jieba提取高频词

1-20高频词

大数据面试题——如何从大量数据中找出高频词

【海量数据处理】如何从大量数据中找出高频词？

27个高频词,拼凑在一起可以有很多常用小短句。

大数据高频词算法实战（一）

【NLP学习笔记】用jieba实现高频词提取

词法分析-利用Jieba实现高频词提取（Python）

jieba分词和高频词提取示例代码

❤️Java面试高频词《多线程》（建议收藏）❤️

Java查找统计一个文档中的单词个数

Fibonacci series| 输出斐波那契数列前30个数，每行打印5个数

python中jieba库筛选高频词语

会计高频词汇

统计txt文档中的单词个数

Java统计文档中aeiou的个数

科技无障碍盛会举办，人工智能和创新成为高频词

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)