jieba中文分词学习 - 代码天地

jieba中文分词学习

其他 2018-07-06 04:50:40 阅读次数: 0

尝试对三国演义中的人物进行词频统计，这只是初步统计，后续还应该继续优化。

import jieba

txt = open("threekingdoms.txt", "r", encoding='utf-8-sig').read()

#注意上面用utf-8或utf-8-sig（文件很大时可用）编码，相应的文本文件的编码方式也应该是utf-8，查询方式

#是用记事本打开，然后点击另存为，查看用的什么编码，一开始遇到错误是因为编码是ANSI

#还有就是可能因为后缀名没有显示，起的名字里加了.txt，所以即使在同一文件夹下，尝试

#打开文件会找不到，所以通过控制面板将隐藏后缀名的勾去掉

words=jieba.lcut(txt)

counts={}

for word in words:

if len(word)==1:

continue

else:

counts[word]=counts.get(word,0)+1

items=list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)

for i in range(10):

word,count=items[i]

print("{0:<10}{1:>5}".format(word,count))

比较：

英文文本的词频统计:没用到jieba

首先要将文本进行噪音处理，即归一化，可以用一个函数（打开文件，小写，空格代替特殊符号）处理，最后形成干净的归一化文本。

然后调用该函数

split( )方法返回列表类型，并以空格隔开

建立词典并for...in...分析单词与出现次数的对应关系，用get方法进行计数：counts[word]=counts.get(word,0)意思是用当前的某一个单词作为键，如果词在里面则返回次数并加1，说明盖=该词又出现了；如果没在字典里面，则加在字典中，并赋当前值为0，并加1，说明在字典中新增了一个元素

字典转列表类型，并用sort方法（lambda函数作为第一个参数，第二个参数是reverse，表示按大到小还是小到大，True是大到小）进行排序

高频词循环打印：先赋值，设置打印格式（左对齐或右对齐，宽度）

猜你喜欢

转载自blog.csdn.net/n_jessica/article/details/80379884

jieba中文分词学习

jieba中文分词学习笔记一

深度学习（2）：中文分词（jieba）（Tensorflow）

【jieba分词】中文分词工具jieba

中文分词原理及jieba分词

中文分词之jieba分词

中文分词（一）：jieba分词

jieba中文分词

【NLP】Jieba中文分词

中文分词工具—Jieba

《中文jieba分词》总结

中文分词库-jieba

中文分词jieba python 学习关键词

jieba分词与HMM学习

优秀的中文分词jieba库

中文分词 jieba和HanLP

jieba中文分词.net版

Python中文分词库——jieba

NLP_中文分词/jieba分词原理

模块 jieba结巴分词库中文分词

Data Mining & Machine Learning学习笔记机器学习入门笔记之jieba分词（中文分词）（二）

python 结巴分词(jieba)学习

jieba分词器学习

Python-jieba中文分词库

jieba中文分词源码解析（一）

NLP之jieba中文分词官方文档

基于python的中文分词库jieba简介

jieba中文分词源码分析（一）

jieba中文分词源码分析（四）

jieba中文分词源码分析（二）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)