《三国演义》之人物出场统计 - 代码天地

《三国演义》之人物出场统计

其他 2020-06-23 10:58:00 阅读次数: 0

版权声明：该文是博主个人的学习笔记，如有错误，恳请看官在评论区指出，在下不胜感激～如要转载注明出处即可～

人物出场设计对词汇的统计。中文文章需要分词才能进行词频统计，这需要用到jieba库。
《三国演义》文本保存为三国演义》.txt,实现代码如下：

#CalThreekingdomsV1.py
import jieba
txt =open("三国演义.txt", "r", encoding = 'utf - 8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:#排除单个字符的分词结果
        continue
    else:
        counts[word] = counts.get(word, 0) + 1
items = list(counts.items())
items.sort(key = lambda x:x[1], reverse=True)
for i in range (15):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word, count))

在这里插入图片描述

在这里插入图片描述
排除一些与人物名字无关的词汇，优化代码如下：

import jieba
excludes = {"将军","却说","荆州","二人","不可","不能","如此"}
txt = open("三国演义.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "诸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "关公" or word == "云长":
        rword = "关羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "刘备"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"
    else:
        rword = word
    counts[rword] = counts.get(rword,0) + 1
for word in excludes:
    del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/xiaoyong5854/article/details/84876873

《三国演义》之人物出场统计

python三国演义人物出场统计

【Python】Tips: 《三国演义》人物出场统计

8-4 《三国演义》人物出场统计（无名单版）python

8-4 《三国演义》人物出场统计（名单版）python

三国演义人物词频统计-2

三国演义人物词频统计-1

三国演义人物词频统计-4

三国演义人物词频统计-3

Ubuntu的中文是哪种字体？python的词云分析和三国演义人物出场统计

运用结巴库分析三国演义的人物出场次数

Python-人物词频统计-jieba库-三国演义

对三国演义人物出现次数统计分析

Python---统计《三国演义》中出现次数较高的人物

Python-继人物词频统计三国演义之后-三国词云（Wordcloud）

python 绘制三国演义人物关系图

【jieba库】使用jieba库对《三国演义》全篇进行分词处理，统计《三国演义》中各个人物的出场次数，打印次数排名前五的人物姓名具有排除词库和合并不同称谓功能的Python程序|CSDN创作打卡

【Python】三国演义词频统计

三国演义字数统计

练习（三国演义字频统计）

【matplotlib库与jieba库】使用jieba库对《三国演义》全篇进行分词处理，并使用matplotlib库绘制统计的人物出场次数最多的前五名的柱状图

Jieba与三国？——使用jieba统计《三国演义》词频

《三国演义》十大不义之人

Python利用jieba库实现中文词频统计：以三国演义为例

三国演义（二十四）

三国演义生活真理

《萌将三国演义》隐私政策

《三国演义》与“项目管理”——向刘备拜师

python 2.7 音频《三国演义》下载

三国演义第二集

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)