关键词提取

本笔记是根据寒小阳课程教授内容,自己练习所写,并非个人原创:
(本代码编译环境为python3)
- TF-IDF关键词提取
- jieba.analyse.extract_tags(sentence, topK = 20, withWeighet = False, allowPOS = ())
- sentence 为待分析文本
- withWeight 返回关键词权重
- allowPOS = ()指定返回词的词性

#encoding = utf-8
import jieba.analyse as analyse
lines_1 = open('...\\NBA.txt',encoding = 'utf-8').read()
print(' '.join(analyse.extract_tags(lines_1,topK = 20,allowPOS = ())))
>>> 时间 建议 特别 过程 选择 机会 期待 一家 介绍 很大 交流 韦少 全明星 杜兰特 MVP 全明星赛 威少 指导 两次 周末
  • textrank 关键词提取
  • jieba.analyse.textrank(sentence,topK = 20,withWeight = False,allowPOS = ())
  • sentence 为待分析文本
  • topK 为返回TF/IDF权重最大的关键词,默认值为20
  • allowPOS = ()指定返回词的词性

import jieba.analyse as analyse
lines_1 = open('D:\\study\\NLP\\01_NLPbasis_txt\\Lecture_1\\NBA.txt',encoding = 'utf-8').read()
print(' '.join(analyse.textrank(lines_1,topK = 20, withWeight = False, allowPOS = ('ns','n','vn','v'))))
>>>全明星赛 勇士 正赛 指导 对方 投篮 球员 没有 出现 时间 威少 认为 看来 结果 相隔 助攻 现场 三连庄 介绍 嘉宾
print(' '.join(analyse.textrank(lines_1,topK = 20, withWeight = False, allowPOS = ('ns','n'))))
>>>勇士 正赛 全明星赛 指导 投篮 玩命 时间 对方 现场 结果 球员 嘉宾 时候 全队 主持人 照片 全程 目标 快船队 肥皂剧

猜你喜欢

转载自blog.csdn.net/weixin_38755238/article/details/80213181