TFIDF关键词提取简介 - 代码天地

TFIDF关键词提取简介

其他 2019-04-13 13:20:56 阅读次数: 0

TFIDF原理

对于若干个文章的集合，我们要提取每篇文章具有代表性的关键词，我们应该怎么做呢？

最直观也是最容易想到的方法，就是统计每个词汇在文章中出现的频率TF（term frequency），频率高的就是具有代表性的词汇。但是这样的话，可以想象频率最高的词汇一定是“的”“是”“你我他”这样的stop words，所以，我们首先要排除这些词汇。TF的计算方法如下：

另外一点，举个例子，我们有三类文章A,B,C，首先这3篇文章都有一个高频率词汇“中国”（而且是频率最高的词汇），其次，A文章第二高频词汇为“体育”，B“艺术”，C“音乐”；请问，你觉得“中国”可以作为最具有代表性的词汇吗？明显不可以吧。所以，除了考虑词汇的频率之外，还需考虑词汇在其他文档当中出现的概率，词汇的重要性应该和该概率是反相关的，我们用一下公式来衡量：

所以，为了衡量一个词汇的重要性，我们使用TF-IDF来计算：

草考文献：

[1] tfidf - wiki

[2] TF-IDF与余弦相似性的应用（一）：自动提取关键词

猜你喜欢

转载自blog.csdn.net/xiaomeng29/article/details/89069098

TFIDF关键词提取简介

基于TFIDF的关键词提取算法

tfidf进行关键词提取

TFIDF分词过滤,提取关键词

【NLP】关键词提取：TFIDF、TextRank

NLP--jieba(关键词提取（TFIDF/TextRand）)

关键词提取

基于java版jieba分词实现的tfidf关键词提取

gensim进行LSI LSA LDA主题模型，TFIDF关键词提取，jieba TextRank关键词提取代码实现示例

如何提取关键词

关键词提取算法

新闻提取关键词

实战关键词提取

关键词提取技术

pyhanlp关键词提取

关键词的提取方法

关键词、摘要、关键短语提取

文本关键词提取小结

HanLP 关键词提取算法分析

python实现关键词提取

文章关键词提取算法

关键词提取算法学习

从pagerank到textrank关键词提取

关键词提取算法TextRank

使用jieba分词提取关键词

文本关键词提取算法

文本关键词提取二三事

分词加关键词提取

文本关键词提取方法综述

关键词提取:TF-IDF

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)