贝叶斯_文本分析 - 代码天地

贝叶斯_文本分析

其他 2018-12-05 00:08:01 阅读次数: 0

一、文本关键词提取

1、过滤掉文本中出现的停用词

停用词：指与文章主题不相干的词，符号等。表现在：1、文本中大量出现；2、与主旨不相关；3、对于分析文本没用处

2、TF-IDF决定关键词

(1)首先进行词频（Term Frequency，TF），IDF，TF-IDF统计

TF-IDF统计方法用于评估某字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。主要思想：如果某一字词在一片文章中出现的平率TF越高，在其他文章中很少出现，则认为此字词具有很好的类别区分能力

IDF: Inverse Document Frequency 逆文本频率

IDF是TF的倒数，如果包含字词t的文档越少，IDF越大

IDF不足：如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强，但是实际上，如果一个词条在一个类的文档中频繁出现，在其他文档中出现的较少，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

TF=某词在文章中出现次数/该文章中子词的总数

IDF=log(语料库中的文档总数/包含该词的文档数+1)

TF-IDF=TF*IDF 值越大，该字词越关键

(2)根据TF-IDF值，选择出关键字

未完待续

猜你喜欢

转载自www.cnblogs.com/molloy-Bonjour/p/10035627.html

贝叶斯_文本分析

基于贝叶斯的文本分类

文本分类--朴素贝叶斯

python分类分析--朴素贝叶斯算法原理与文本分类分析案例

朴素贝叶斯——最适合简单的文本分析算法

python--贝叶斯新闻文本分析小例

朴素贝叶斯&基于朴素贝叶斯的文本分类算法

朴素贝叶斯算法文本分类原理

朴素贝叶斯在文本分类中的应用

基于朴素贝叶斯的文本分类(二)

文本分类---朴素贝叶斯(2)

朴素贝叶斯实现的文本分类

sklearn+python:朴素贝叶斯及文本分类

(三)朴素贝叶斯运用——文本分类

朴素贝叶斯进行文本分类

机器学习-文本分类实例-朴素贝叶斯

朴素贝叶斯原理及文本分类

文本分类（朴素贝叶斯算法）

文本分类之朴素贝叶斯算法

【数据分析学习笔记day26】自然语言处理NLTKPython文本分析工具NLTK 情感分析+ 文本相似度 +文本分类 +分类预测模型+朴素贝叶斯+ 实战案例+微博情感分析

NLP系列(2)_用朴素贝叶斯进行文本分类(上)

迁移学习应用—基于朴素贝叶斯的文本分类

NLP用朴素贝叶斯进行文本分类（二）

利用TfidfVectorizer+朴素贝叶斯进行文本分类

文本分类和朴素贝叶斯，你真的理解了吗？

Python自然语言处理—文本分类—朴素贝叶斯

机器学习实战：朴素贝叶斯模型之文本分类

利用spark做文本分类（朴素贝叶斯模型）

自然语言处理朴素贝叶斯新闻文本分类

基于ml的spark中文文本分类（朴素贝叶斯）

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)