NLP 相关算法 Word2Vec embedding

在做NLP处理时,作为输入的文字或语料不应以原始文字形式输入,需要进行一定的数字化处理以方便机器进行计算(树类算法可以不进行处理)。Word2Vec本质上就是将原始文字进行数字化处理的一种方式。
最为简单的文字数字化处理方式是one-hot方法,也就是创建一个长度等于字典长度的全零向量,向量的每个要素都指向一个词汇,当我们需要表示某个词汇时,只需将向量中指向该词汇的0变为1即可。这样任何一个单词都可以用这个向量来表示,而一个句子则可以用一个矩阵来表示,但是这样的向量和矩阵都将是非常稀疏的。另外的问题是,如果字典量大,那么one-hot方法输入的矩阵规模也将很大;另外,one-hot方法无法表达语义联系,即词与词之间的位置关系是无法用one-hot矩阵方法表示的。因此将原始文字转化为one-hot矩阵将会损失大量的语义信息,只能保持符号信息,且计算效率较低。
Word2Vec方法就是为了解决上述问题而被提出的,首先,它希望将表示单个词汇的与字典长度相同的one-hot向量缩短以提升计算效率,其次,表示不同词汇的embedding向量将可以隐含词汇间的语义联系。

猜你喜欢

转载自blog.csdn.net/yuanjackson/article/details/83183289