文本分析——分配单词权重 - 代码天地

文本分析——分配单词权重

编程语言 2018-04-27 01:16:40 阅读次数: 3

文本处理中很多时候会需要给每个单词分配权重，有了权重以便后续进一步处理。常用的算法主要是TF-IDF。

TF

TF，即Term Frequency。我们可以将文档看成由若干词（term）组成，那么文档中某个term出现的频率就是TF。词频和词权重存在关系，可以用来作为词权重的衡量因素之一。

IDF

IDF，即Inverse Document Frequency。TF算法存在一个问题：比如某文档中多个term出现的次数相同，则不好判别他们之间哪个更重要。因此又引入逆文档频率(IDF)，某个term的IDF可定为：

其中，T为统计样本中总文档数，t为包含某term的文档数。由此说明包含某term的文档数越多，该term越不重要。

获取IDF方式

其实有几种方式来统计IDF。

自己收集样本库进行统计。
第三方统计好的IDF表。
借助百度或谷歌搜索引擎，这种方式不准确。随便取个m值假设为总文档，再搜索某个term得到n条结果，则认为n除以m即为IDF。

TF-IDF

有了前面的TF和IDF就可以通过他们一起决定某个Term的权重。定义TF-IDF为TF乘以IDF。

猜你喜欢

转载自my.oschina.net/xiaominmin/blog/1635451

文本分析——分配单词权重

舆情文本分析

文本分析

python 文本分析

文本分析笔记

python文本分析

文本分析总结

NLP 文本分析

文本分析1--文本分析概述

pynlpir + pandas 文本分析

文本分析论文资料

文本分析工具awk

01 文本分析随记

Keras笔记--文本分析

Python文本分析技巧

07.文本分析

5.4 文本分析与加密

2.文本分析

C#：将文本分解为单词

免费在线文本分析工具

Python数据挖掘——文本分析

文本分析工具 awk 详解

python文本分析-NLTK安装

solr学习日记···文本分析-charfilter

solr学习日记···文本分析-filter

solr学习日记···文本分析-tokenizer

solr学习日记···文本分析-analyzer

pyhanlp 文本分类与情感分析

贝叶斯_文本分析

pyhanlp文本分类与情感分析

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)