NLP之文本表示-词袋模型 - 代码天地

NLP之文本表示-词袋模型

其他 2020-02-18 20:16:46 阅读次数: 0

一文本表示

文本表示是自然语言处理的开始。
含义：把字词处理成向量或矩阵，以便计算机能进行处理。
按照细粒度划分，一般可分为字级别、词语级别和句子级别的文本表示。
- eg：刘诗诗实在太可爱了，我想娶”这句话拆成一个个的字：｛刘，诗，实，在，太，可，爱，了，我，想，娶｝，然后把每个字用一个向量表示，那么这句话就转化为了由11个向量组成的矩阵。
文本表示分为离散表示和分布式表示。
- 离散表示的代表就是词袋模型，one-hot（也叫独热编码）、TF-IDF、n-gram都可以看作是词袋模型。
- 分布式表示也叫做词嵌入（word embedding），经典模型是word2vec，还包括后来的Glove、ELMO、GPT和最近很火的BERT。

二词袋模型

假如现在有1000篇新闻文档，把这些文档拆成一个个的字，去重后得到3000个字，然后把这3000个字作为字典，进行文本表示的模型，叫做词袋模型。
特点是字典中的字没有特定的顺序，句子的总体结构也被舍弃。

（1）one-hot

eg：有两句话“刘诗诗太漂亮了，我爱刘诗诗”，“我喜欢看刘诗诗的电视剧和电影”，把这两句话拆成一个个的字，整理得到17个不重复的字，这17个字决定了在文本表示时向量的长度为17。
- 下面这个表格的第一行是这两句话构成的一个词袋（或者说字典），有17个字。
- 要对两句话进行数值表示，那么先构造一个2×17的零矩阵；
- 然后找到第一句话中每个字在字典中出现的位置，把该位置的0替换为1，第二句话也这样处理。
- 只管字出现了没有（出现了就填入1，不然就是0），而不管这个字在句子中出现了几次。
- 表格中的二、三行就是这两句话的one-hot表示。

刘	诗	太	漂	亮	了	我	爱	喜	欢	看	的	电	视	剧	和	影
1	1	1	1	1	1	1	1	0	0	0	0	0	0	0	0	0
1	1	0	0	0	0	1	0	1	1	1	1	1	1	1	1	1

从表中我们可以看出以下几个问题：

数据稀疏和维度灾难。
- 数据稀疏：向量的大部分元素为0。
- 如果词袋中的字词达数百万个，那么由每篇文档转换成的向量的维度是数百万维，由于每篇文档去重后字数较少，因此向量中大部分的元素是0。
- 这样进行文本表示有几个问题。可见，尽管两个句子的长度不一样，但是one-hot编码后长度都一样了，方便进行矩阵运算。
没有考虑句中字的顺序性。
- 假定字之间相互独立。这意味着意思不同的句子可能得到一样的向量。
- eg:“我太漂亮了，刘诗诗爱我”，“刘诗诗喜欢看我的电视剧和电影”，得到的one-hot编码和上面两句话的是一样的。
没有考虑字的相对重要性。这种表示只管字出现没有，而不管出现的频率，但显然一个字出现的次数越多，一般而言越重要（除了一些没有实际意义的停用词）。

接下来用TF-IDF来解决字的相对重要性问题。

（2）TF-IDF

TF-IDF用来评估字词对于文档集合中某一篇文档的重要程度。
- 字词的重要性与它在某篇文档中出现的次数成正比，与它在所有文档中出现的次数成反比。
公式

a TF：词频

用来衡量字在一篇文档中的重要性
公式

首先统计字典中每个字在句子中出现的次数：

刘	诗	太	漂	亮	了	我	爱	喜	欢	看	的	电	视	剧	和	影
2	4	1	1	1	1	1	1	0	0	0	0	0	0	0	0	0
1	2	0	0	0	0	1	0	1	1	1	1	2	1	1	1	1

再统计字典中每个字在句子中的频率，即TF值：

刘	诗	太	漂	亮	了	我	爱	喜	欢	看	的	电	视	剧	和	影
1/6	1/3	1/12	1/12	1/12	1/12	1/12	1/12	0	0	0	0	0	0	0	0	0
1/14	1/7	0	0	0	0	1/14	0	1/14	1/14	1/14	1/14	1/7	1/14	1/14	1/14	1/14

b IDF：逆文档频率

衡量某个字在所有文档集合中的常见程度。当包含某个字的文档的篇数越多时，这个字也就烂大街了，重要性越低。
公式

计算出来的IDF矩阵如下表：

刘	诗	太	漂	亮	了	我	爱	喜	欢	看	的	电	视	剧	和	影
-0.41	-0.41	0	0	0	0	-0.41	0	0	0	0	0	0	0	0	0	0

最后得到TF-IDF = TF × IDF，这里就不再计算了。

TF-IDF算法的优点是简单快速，结果比较符合实际情况。
缺点:单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的；数据稀疏。

（三）n-gram

上面词袋模型的两种表示方法假设字与字之间是相互独立的，没有考虑它们之间的顺序。于是引入n-gram（n元语法）的概念。n-gram是从一个句子中提取n个连续的字的集合，可以获取到字的前后信息。一般2-gram或者3-gram比较常见。

xiaoxiaoliluo917

发布了42 篇原创文章 · 获赞 28 · 访问量 5万+

私信关注

猜你喜欢

转载自blog.csdn.net/xiaoxiaoliluo917/article/details/94392993

NLP之文本表示-词袋模型

NLP从词袋到Word2Vec的文本表示

文本离散表示（一）：词袋模型（bag of words）

文本表示（词嵌入表示&词袋表示BOW）

NLP | 词袋模型 Bag of words model

NLP系列文章（二）——词袋模型

NLP系列文章（二）——词袋模型

NLP学习笔记十二-词袋模型

文本表示模型中涉及的知识点整理(词袋模型，TF-IDF，主题模型，词嵌入模型)

文本向量化及词袋模型 - NLP学习（3-1）

【NLP】之文本表示

NLP浅层次模型之N-Gram词袋法

TensorFlow与NLP（词袋模型：垃圾短信检测）

NLP入门（一）词袋模型及句子相似度

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型

【文本挖掘】——文本信息化——词袋模型

【NLP】2.语言模型（通顺度模型与智能纠错），3.文本表示（词向量构建与分布表示）

BOW词袋模型

词袋模型

泛统计理论初探——文本挖掘中的词袋模型

文本向量化 - 词袋模型， N-gram 特征

NLP基础——词集模型（SOW）和词袋模型（BOW）

NLP概念：词袋模型（BOW）和词向量模型（Word Embedding）介绍

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

自然语言处理（NLP）： 01 基于词袋模型（BOW）特征抽取 + 贝叶斯算法新闻文本分类

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

DBOW 词袋模型，图像池袋

基于TFIDF实现文本分类，并比较词集模型与词袋模型的分类效果

词袋模型和词向量模型

【火炉炼AI】机器学习038-NLP创建词袋模型

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)