【大模型AIGC系列课程 2-1】文本向量化

1. 概述

词汇表征是指我们在自然语言处理(NLP)中如何描述和处理词语的方法。在进行NLP监督机器学习任务时,我们以一句话为例:“I want a glass of orange ____”,我们要通过这句话中的其他单词来预测空白处的单词。这是一个典型的NLP问题。如果将其看作监督机器学习,我们的输入是上下文单词,而输出是要预测的目标单词,或者说目标单词的概率。为了解决这个问题,我们需要建立一个语言模型来学习输入和输出之间的映射关系。在深度学习中,这个模型通常是循环神经网络。
在NLP中,最基本的单位是词语。词语可以组成句子,句子再构成段落、篇章和文档。但是计算机并不直接理解这些词语,因此我们需要将代表自然语言的词汇转换为计算机可识别的数值形式。简单来说,我们需要将词汇转化为计算机能够处理的数值表示。目前有两种主要的方法来进行这种转化和表征。第一种是传统机器学习中的one-hot编码方式,即将每个词语表示为一个向量,其中只有一个元素是1,其余都是0,代表词语的唯一位置。然而,这种方法存在词语之间无法捕捉语义关系的问题。第二种方法是基于神经网络的词嵌入技术,它能够将词语映射到连续的向量空间中,使得词语的语义和语法信息能够得到更好的表达和理解。词嵌入技术在NLP中广泛应用,并取得了很多成功。

2. 词向量-离散表示

文本向量化离散表示是一种把文本转换成数字向量的方法。它主要基于规则和统计的方式,常见的方法有两种:词集模型和词袋模型。

  1. 词集模型:这个模型会统计每个单词是否在句子中出现。比如,我们可以用One-Hot Representation来表示,只要单个文本中的单词在一个字典里出现,就用1表示,不管

猜你喜欢

转载自blog.csdn.net/u011239443/article/details/132452183