自然语言处理学习7：jieba中文关键词提取和词性标注 - 代码天地

自然语言处理学习7：jieba中文关键词提取和词性标注

其他 2018-05-30 15:17:38 阅读次数: 1

1. 关键词提取: jieba.analyse.extrags()

其中参数sentence 为待提取的文本，topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20，withWeight 为是否一并返回关键词权重值，默认值为 False。 allowPOS 仅包括指定词性的词，默认值为空，即不筛选。

import jieba
import jieba.analyse
import nltk
paragraph = "生活对我们任何人来说都不容易。 我们必须努力，最重要的是我们必须相信自己。 \
我们必须相信，我们每个人都能够做得很好，而且，当我们发现这是什么时，我们必须努力工作，直到我们成功。"
words_list = jieba.lcut(paragraph)
print(jieba.analyse.extract_tags(paragraph,topK=5))
['我们', '必须', '努力', '相信', '任何人']

可以看出，提取关键词时是不考虑标点符号的；”都“和”对“这种词也不考虑。

import operator
sorted(dict(nltk.FreqDist(words_list)).items(),key=operator.itemgetter(1),reverse=True)
[('我们', 8),
 ('，', 6),
 ('必须', 4),
 ('。', 3),
 ('都', 2),
 (' ', 2),
 ('努力', 2),
 ('相信', 2),
 ('生活', 1),
 ('对', 1),
 ('任何人', 1),
 ('来说', 1),
   ......]

2. 词性标注：jieba.posseg.cut(), 返回一个迭代器

import jieba.posseg as pseg
words = pseg.cut(paragraph)
words
<generator object cut at 0x000001CF7CB1F360>

注：具体的中文词性类型及对应符号可参考博文https://blog.csdn.net/zhuzuwei/article/details/79029904

for word, flag in words:
    print('%s, %s' % (word, flag))
生活, vn
对, p
我们, r
任何人, r
来说, u
都, d
不, d
容易, a
。, x
我们, r
必须, d
努力, ad
......

猜你喜欢

转载自blog.csdn.net/zhuzuwei/article/details/80501012

自然语言处理学习7：jieba中文关键词提取和词性标注

中文自然语言处理--jieba基于 TextRank 算法进行中文文本中的关键词提取

自然语言处理学习6：nltk词性标注

中文自然语言处理--jieba基于 TF-IDF 算法进行中文文本中的关键词提取

自然语言关键词提取

中文自然语言处理--基于 pyhanlp 进行关键词提取

中文自然语言处理--基于 LDA 主题模型进行中文文本中的关键词提取

自然语言处理 | (8)中文文本分析、可视化与新闻关键词提取

jieba词性标注与分词结果不一致(提取关键词）

NLP学习笔记 01 分词、词性标注和关键词提取

9. HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取

自然语言处理NLP之中文分词和词性标注

自然语言处理——TF-IDF算法提取关键词

自然语言处理--TF-IDF（关键词提取）

Python自然语言处理实战（5）：关键词提取算法

【自然语言处理】TF-IDF算法提取关键词

自然语言处理之关键词提取TF-IDF

自然语言处理工具hanlp关键词提取图解TextRank算法

自然语言处理（NLP）词法分析--文本关键词提取

自然语言处理：关键词提取（TF-IDF、Textrank）

python 自然语言处理词性标注

自然语言处理3 -- 词性标注

自然语言处理：词性标注

自然语言处理学习3：中文分句re.split()，jieba分词和词频统计FreqDist

自然语言处理实战项目2-文本关键词抽取和关键词分值评估

十、半个小时搞定词性标注与关键词提取

python--jieba分词、词性标注、关键词提取、添加自定义词典完整代码示例

自然语言处理之hanlp，Python调用与构建，分词、关键词提取、命名主体识别

【自然语言处理】词性标注（北大，宾州）

自然语言处理基础技术之词性标注实战

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)