关键字提取笔记 - 代码天地

关键字提取笔记

其他 2020-03-18 22:34:10 阅读次数: 0

定义：从文本中与这篇文章意义最相关的一些词语抽取出来。

抽取的两种方法：

关键词分配：给定一个已有的关键词库，对于新来的文档从该词库里面匹配几个词语作为这篇文档的关键词，有点类似抗战时期的密码本-以及密码破译过程；
关键词提取：针对新文档，通过算法分析，提取文档中一些词语作为该文档的关键词。

目前，第二种在实际应用中更准确，因而用的更多。

我的参考资料

基于TF-IDE算法进行关键词提取

TF-IDF是一种数值统计，用来反映一个词语对于语料中某篇文档的重要性。
TF-IDF的主要思想：如果某个词在一篇文档中出现的频率越高，即TF越高；并且在语料库中其他文档中很少出现，即DF低，也就是IDF越高，则认为这个词具有很好的类别区分能力。
jieba分词库已经实现了基于TF-IDF算法的关键词抽取，通过import jieba.analyse引入，函数参数解释如下：

1 jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,allowPOS=())
3 sentence:待提取的文本语料
4 topK:返回TF-IDF权重最大的关键词个数，默认是20
5 withWeight:是否需要返回关键词权重值，默认是False
6 allowPOS:仅包括指定词性的词，默认值是空，即不筛选

明晚上测试代码，今晚计算机不方便；

基于TextRank算法进行关键词提取

核心思想是将文本中的词语当作图中的节点，通过边相互连接，不同的节点会有不同的权重，权重高的节点可以作为关键字。

猜你喜欢

转载自www.cnblogs.com/daisy99lijing/p/12520849.html

关键字提取笔记

this关键字-笔记

提取PDF关键字并写入Excel

Python解析、提取url关键字

中文文本的关键字提取

5. 关键字提取算法

文本关键字提取算法归纳

关键字提取算法TextRank算法

MYSQL的binlog日志提取关键字

shell 提取json文件关键字

中文分词文本关键字提取

从文档中提取关键字

python笔记-关键字

JAVA笔记 -- this关键字

Java笔记，this关键字

java关键字笔记

js笔记 this关键字

sinal关键字笔记

python数据挖掘实战笔记——文本挖掘（8）：用sklearn包进行关键字提取

sklearn使用TFIDF进行文本关键字提取

数据挖掘——文本挖掘-关键字提取

数据挖掘——关键字提取—sklearn的实际应用

python提取包含关键字的整行数据

文本挖掘----基于OCR的文档关键字提取

使用php进行文章关键字(标签)的提取

3、python关键字提取和词云美化

一种关键字提取新方法

关键字提取LSA/LSI/LDA算法

python利用jieba(textRank、TFIDF)提取关键字

awk - 提取包含某个关键字的段落

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)