《数学之美》第15章矩阵运算和文本处理中的两个分类问题 - 代码天地

《数学之美》第15章矩阵运算和文本处理中的两个分类问题

其他 2018-05-12 05:20:15 阅读次数: 0

1 文本和词汇的矩阵

在自然语言处理中，最常见的两个分类问题分别是：将文本按主题归类（比如将所有介绍奥运会的新闻归到体育类）和将词汇表中的字词按意思归类（比如将各种运动的项目名称归成体育一类）。

新闻分类乃至各种分类问题其实是一个聚类问题，关键是计算两篇新闻的相似度。为了完成这个过程，我们要将新闻变成代表它们内容的实词，然后在变成一组数，具体说是向量，最后求出这两个问题的夹角。

奇异值分解（Singular Value Decomposition，简称 SVD），一次能把所有的新闻相关性计算出来。

在矩阵A中，每一行对应一篇文章，每一列对应一个词。其中，第 i 行、第 j 列的元素，是字典中第 j 个词在第 i 篇文章中出现的加权词频（比如用词的TF-IDF值）。共5000亿个元素。

奇异值分解，就是把大矩阵分解成三个小矩阵相乘。共1.5亿个元素，不到原来的三千分之一。

原书有点问题，还没得到证实：

矩阵X是对文本的分类结果，每一行对应一篇文本，每一列对应一个主题，这一行中每个元素表示这篇文档在不同主题中的相关性。

中间矩阵B表示文章的类和词的类之间的相关性。

矩阵Y是对词进行分类的一个结果，它的每一列表示一个词，每一行表示一个语义相近的词类，或者简称为语义类。这一列的每一个非零元素表示这个词在每个语义类中的重要性（或者说相关性），数值越大越相关。

因此，只要对关联矩阵A进行一次奇异值分解，就可以同时完成近义词分类和文章的分类。另外，还能得到每个主题和每个词的语义类之间的相关性。

2 奇异值分解的方法和应用场景

首先，将矩阵A变换成一个双对角矩阵。

第二步，将双对角矩阵变换成奇异值分解的三个矩阵。

猜你喜欢

转载自blog.csdn.net/wangsiji_buaa/article/details/80196193

《数学之美》第15章矩阵运算和文本处理中的两个分类问题

数学之美：矩阵运算和文本处理中的两个分类问题奇异值分解

数学之美系列十八：矩阵运算和文本处理中的分类问题

《数学之美》第14章余弦定理和新闻的分类

《数学之美》第7章贾里尼克和现代语言处理

数学之美第2章自然语言处理：从规则到统计

数学运算、数组、文本处理

第4章：文本处理

C#基础-第14章：字符、字符串和文本处理

shell脚本数学运算，数组，文本处理

Linux命令之文本处理

linux文本处理之awk

assign之python文本处理

Linux文本处理之sed

Linux之文本处理命令

linux之文本处理

Python库之文本处理

shell 文本处理之 grep

python之文本处理

Linux文本处理之grep

linux文本处理之 grep

Linux之文本处理的练习

shell脚本--文本处理三剑客之awk 模式匹配的两种用法(正则和运算符)

shell中的文本处理之grep,sed,awk的学习应用

shell脚本--文本处理三剑客之awk中数组的用法

shell脚本--文本处理三剑客之awk中的常用选项

自然语言处理之文本处理步骤

《数学之美》第二章自然语言处理——从规则到统计

第二章文本处理工具

linux bash基础之文本处理

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)