作业：中文词频统计与词云生成 - 代码天地

作业：中文词频统计与词云生成

其他 2019-03-25 22:11:26 阅读次数: 0

这个作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

1. 下载一长篇中文小说。

　　本文将下载《天龙八部》小说第一章并将其为例，展示生成中文词云和词频统计的完整过程。

2. 从文件读取待分析文本。

f = open(u'.txt',encoding='UTF-8').read()

3. 安装并使用jieba进行中文分词。

4. 生成词频统计

在第425行，进行分词，然后将结果进行遍历（426-433行），遍历中，剔除单个字符，每个词语和它所出现的次数写入字典，第434、435行将字典转化为元组所组成的列表，并依据出现次数进行排序，然后遍历列表，取出前10名。

第二段代码（441-445行）是依据权重取出了关键词，可以看出，这章小说，主要讲的就是段誉的事情了，不论是权重还是词频都是他最高。。。

5. 生成词云

#coding:utf-8

import jieba
from wordcloud import WordCloud 

f = open(u'天龙八部.txt','r').read()
s = {}
f = jieba.cut(f)
for w in f:
    if len(w) > 1:
        previous_count = s.get(w,0)
        s[w] = previous_count+1

word = sorted(s.items(),key=lambda (word,count):count, reverse = True)
word = word[1:100]
#print word[:100]
wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)
import matplotlib.pyplot as plt
plt.imshow(wordcloud) 
plt.axis("off")
plt.show()

运行结果如下：

猜你喜欢

转载自www.cnblogs.com/luengmingbiao/p/10596980.html

作业：中文词频统计与词云生成

中文词频统计与词云生成

jieba （中文词频统计）、collections （字频统计）、WordCloud （词云） py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）

作业——04 中文词频统计

中文词频统计

中文词频统计中文词频统计

python词频统计生成词云

python jieba分词及中文词频统计

大作业+补交作业 python基础综合练习：英文词频统计中文词频统计网络爬虫基础练习获取全部校园新闻

补交作业 python基础综合练习：英文词频统计中文词频统计网络爬虫基础练习获取全部校园新闻

使用Python统计文件中词频，并且生成词云

用jieba库统计文本词频及云词图的生成

使用python读取word统计词频并生成词云

词频统计及词云绘制

【作业】jieba中文词云

英文词频统计

python中文词云生成

Python生成中文词云

中文词频分析

阶段作业1：完整的中英文词频统计

基于jieba库实现中文词频统计

Python实现简单中文词频统计示例

[python] 词云：wordcloud的使用、源码分析、中文词云生成和代码重写

Python生成中文词云图（二）：不可指定词云特定的形状和颜色。

Python生成中文词云图（一）：可指定特定的词云形状和颜色。

完整的英文词频统计

Hadoop综合大作业&补交4次作业：获取全部校园新闻，网络爬虫基础练习，中文词频统计，熟悉常用的Linux操作

jieba库使用和好看的词云用jieba库统计文本词频及云词图的生成

WordArt怎样生成中文词云？

阶段作业1：完整的中英文词频统计+补交上次作业

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)