Sequence Models(Week2)---Natural Language Processing & Word Embeddings

(一)Introduction to word embeddings

一、Word Representation

用近300个特征值组成的向量来表示man这个单词

词嵌入是NLP中最重要的思想之一

二、Using word embeddings

词嵌入可以使得学习算法的推广性增强,如XXX is orange farmer识别出了XXX是人名,那么可以更好地识别出XXX is an apple farmer中XXX也是农民,因为orange与apple具有相同的相似性

这样的原因是学习词嵌入的算法可以检查大量的文本主体

下载网上已经训练好的词嵌入

encoding与embedding的含义基本一致,其实就是编码的意思

三、Properties of word embeddings

词嵌入也是词编码的属性,有助于推理类比

词嵌入可以应用于类比推理

四、Embedding matrix

(二)Learning word embeddings

五、Word2Vec

在上下文中选的词与目标词之间并非临近的关系

六、Negative Sampling

如何选取训练集?

K的取值,即选择负样本的数目,如果数据集较小,选取5~20即可;数据集较大,k取2~5

每次只训练5个逻辑回归单元,则包含K+1个样本,K个负样本+1个正样本,计算成本较低

训练K+1个二元分类问题,在每次迭代中会稍微容易些

启发式观察英文文本中的分布,到从均匀分布中采样,取观察到词频的3/4次方

这里也有事先训练过的词向量,下载其他人的词向量并作为出发点

七、GloVe word vectors

从特征化的视角出发,训练词向量,但出现的问题是,词嵌入矩阵的单个元素不一定是可以解释的

(三)Applycations using word embedding

一、Sentiment Classification

情感分类的一个挑战是可能缺乏一个很大的标签训练集,但使用词嵌入之后可以使用一个中等大小的标签集即可

训练集的数据可能在1万到10万之间,

方法一:

把句子中的每一个词用One-hot X 嵌入词矩阵(在更大的词汇量中已训练好)=词嵌入向量

再将句子中每个词的词嵌入向量相加求平均值,再输入softmax函数中,进行每类的预测

该方法对或长或短的评论均有效果,但存在的问题是忽视了单词之间的顺序

方法二:使用RNN

把每个词由one-hot变为词嵌入向量后,把每个词输入到RNN中

二、Debiasing word embeddings

在算法中消除不希望看到的偏见,如性别偏见、种族偏见等,讨论减少或消除在词嵌入时这些形式的偏差

猜你喜欢

转载自blog.csdn.net/weixin_38527856/article/details/87476875