Rocchio文本分类 - 代码天地

Rocchio文本分类

其他 2018-08-30 12:12:10 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/dengxiayigetaishan/article/details/52770024

Rocchio算法

Rocchio算法的基本原理：它是基于向量空间模型进行文本分类的的思路。

步骤：

（1）先把属于一个类别的样本文档转换成文档向量。

（2）求属于一个类别的样本文档的质心向量（原型向量）。

（3）判断新文档属于哪个类别。

详解：

（1）如何把属于一个类别的样本文档转换为文档向量：例如：

对于这5个文档，用tf-idf 向量表示，具体的权重计算公式：

其中

公式中

表示词项频率，例如1文档中chinese词项频率为2（这里只是作为例子讲解，数据量非常少）。N表示文档的数量；

表示出现词 t 的文档数量，例如上面chinese出现在4个文档中，所以其为4。运用上面的计算公式可以得下面的文档向量表（这里先看下表的前5个向量，后2个为质心向量）。

（2）求属于一个类别的样本文档的质心向量（原型向量）：它是通过类别中文档向量的平均向量或者质心向量计算，即：

其中

表示文档集中属于类别c的子文档的个数，

表示归一化之后的文档向量；上面后2个向量就是所求的质心向量。

有几个子文档类别，就可以得到几个质心向量，如下图，是三个子文档，分为3个类，其中实心黑为质心向量，圆圈属于China类，菱形属于UK类，叉属于Kenya类，而实心正方形为测试文档，图中可以看出属于kenya类。

a1和a2，b1和b2，c1和c2距离UK和Kenya类的质心向量一样远，可以知道边界线是有2个类质心的等距的点集组成。（图中是可以看出的，但是如何用数学表示）

在二维平面中，这个直线的点可以表示为

其中

成为边界线（多维的话，边界就是一个超平面）的法向量，b为一个常数。那么

和b如何求呢？

则可以求出：

到目前为止，可以说，已经把类之间的边界线已找到。

（3）判断新文档属于哪个类别：

对于向量

属于哪个类别判断，则：

同样对于2<=i<=3,都有

（A类），而对于i=4时，

（B类），所以这就是2个类满足的条件，如何给一个新的测试文档，如果

>b，则属于A类；否则属于B类。可以判断

属于B类。

至此，基本过程已经结束。

猜你喜欢

转载自blog.csdn.net/dengxiayigetaishan/article/details/52770024

Rocchio文本分类

KNN、Rocchio文本分类

文本分类

文本分类步骤

笔记-文本分类

文本分类入门

5.1、文本分类

CNN文本分类

大话文本分类

文本分类-TextCNN

flair文本分类

fasttext文本分类

文本分类模型

xgboost文本分类

文本分类：survey

自制文本分类

文本分类总结

文本分类实战

高效的文本分类

TextCNN(文本分类)

SVM文本分类

文本分类笔记

文本分类问题

文本分类概述

TextCNN文本分类

python的文本分类

NLP文本分类

文本分类任务

文本分类（4）-LSTM实现文本分类

文本分类（5）-TextCNN实现文本分类

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)