动手学深度学习之词嵌入基础及进阶

参考伯禹学习平台《动手学深度学习》课程内容内容撰写的学习笔记
原文链接:https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/lesson/vPFktupNxTK8CzV789PCeV
感谢伯禹平台,Datawhale,和鲸,AWS给我们提供的免费学习机会!!
总的学习感受:伯禹的课程做的很好,课程非常系统,每个较高级别的课程都会有需要掌握的前续基础知识的介绍,因此很适合本人这种基础较差的同学学习,建议基础较差的同学可以关注伯禹的其他课程:
数学基础:https://www.boyuai.com/elites/course/D91JM0bv72Zop1D3
机器学习基础:https://www.boyuai.com/elites/course/5ICEBwpbHVwwnK3C

词嵌入基础

我们在“循环神经网络的从零开始实现”一节中使用 one-hot 向量表示单词,虽然它们构造起来很容易,但通常并不是一个好选择。一个主要的原因是,one-hot 词向量无法准确表达不同词之间的相似度,如我们常常使用的余弦相似度。

Word2Vec 词嵌入工具的提出正是为了解决上面这个问题,它将每个词表示成一个定长的向量,并通过在语料库上的预训练使得这些向量能较好地表达不同词之间的相似和类比关系,以引入一定的语义信息。基于两种概率模型的假设,我们可以定义两种 Word2Vec 模型:

  1. Skip-Gram 跳字模型:假设背景词由中心词生成,即建模 P ( w o w c ) P(w_o\mid w_c) ,其中 w c w_c 为中心词, w o w_o 为任一背景词;

Image Name

  1. CBOW (continuous bag-of-words) 连续词袋模型:假设中心词由背景词生成,即建模 P ( w c W o ) P(w_c\mid \mathcal{W}_o) ,其中 W o \mathcal{W}_o 为背景词的集合。

Image Name

在这里我们主要介绍 Skip-Gram 模型的实现,CBOW 实现与其类似,读者可之后自己尝试实现。后续的内容将大致从以下四个部分展开:

  1. PTB 数据集
  2. Skip-Gram 跳字模型
  3. 负采样近似
  4. 训练模型

import collections
import math
import random
import sys
import time
import os
import numpy as np
import torch
from torch import nn
import torch.utils.data as Data

PTB 数据集

简单来说,Word2Vec 能从语料中学到如何将离散的词映射为连续空间中的向量,并保留其语义上的相似关系。那么为了训练 Word2Vec 模型,我们就需要一个自然语言语料库,模型将从中学习各个单词间的关系,这里我们使用经典的 PTB 语料库进行训练。PTB (Penn Tree Bank) 是一个常用的小型语料库,它采样自《华尔街日报》的文章,包括训练集、验证集和测试集。我们将在PTB训练集上训练词嵌入模型。

载入数据集

数据集训练文件 ptb.train.txt 示例:

aer banknote berlitz calloway centrust cluett fromstein gitano guterman ...
pierre  N years old will join the board as a nonexecutive director nov. N 
mr.  is chairman of  n.v. the dutch publishing group 
...

with open(’/home/kesci/input/ptb_train1020/ptb.train.txt’, ‘r’) as f:
lines = f.readlines() # 该数据集中句子以换行符为分割
raw_dataset = [st.split() for st in lines] # st是sentence的缩写,单词以空格为分割
print(’# sentences: %d’ % len(raw_dataset))

#对于数据集的前3个句子,打印每个句子的词数和前5个词
#句尾符为 ‘’ ,生僻词全用 ‘’ 表示,数字则被替换成了 ‘N’
for st in raw_dataset[:3]:
print(’# tokens:’, len(st), st[:5])

建立词语索引

counter = collections.Counter([tk for st in raw_dataset for tk in st]) # tk是token的缩写
counter = dict(filter(lambda x: x[1] >= 5, counter.items())) # 只保留在数据集中至少出现5次的词

idx_to_token = [tk for tk, _ in counter.items()]
token_to_idx = {tk: idx for idx, tk in enumerate(idx_to_token)}
dataset = [[token_to_idx[tk] for tk in st if tk in token_to_idx]
for st in raw_dataset] # raw_dataset中的单词在这一步被转换为对应的idx
num_tokens = sum([len(st) for st in dataset])
‘# tokens: %d’ % num_tokens

二次采样

文本数据中一般会出现一些高频词,如英文中的“the”“a”和“in”。通常来说,在一个背景窗口中,一个词(如“chip”)和较低频词(如“microprocessor”)同时出现比和较高频词(如“the”)同时出现对训练词嵌入模型更有益。因此,训练词嵌入模型时可以对词进行二次采样。 具体来说,数据集中每个被索引词 w i w_i 将有一定概率被丢弃,该丢弃概率为

$$

P(w_i)=\max(1-\sqrt{\frac{t}{f(w_i)}},0)

$$

其中 f ( w i ) f(w_i) 是数据集中词 w i w_i 的个数与总词数之比,常数 t t 是一个超参数(实验中设为 1 0 4 10^{−4} )。可见,只有当 f ( w i ) > t f(w_i)>t 时,我们才有可能在二次采样中丢弃词 w i w_i ,并且越高频的词被丢弃的概率越大。具体的代码如下:
def discard(idx):
‘’’
@params:
idx: 单词的下标
@return: True/False 表示是否丢弃该单词
‘’’
return random.uniform(0, 1) < 1 - math.sqrt(
1e-4 / counter[idx_to_token[idx]] * num_tokens)

subsampled_dataset = [[tk for tk in st if not discard(tk)] for st in dataset]
print(’# tokens: %d’ % sum([len(st) for st in subsampled_dataset]))

def compare_counts(token):
return ‘# %s: before=%d, after=%d’ % (token, sum(
[st.count(token_to_idx[token]) for st in dataset]), sum(
[st.count(token_to_idx[token]) for st in subsampled_dataset]))

print(compare_counts(‘the’))
print(compare_counts(‘join’))

提取中心词和背景词

def get_centers_and_contexts(dataset, max_window_size):
‘’’
@params:
dataset: 数据集为句子的集合,每个句子则为单词的集合,此时单词已经被转换为相应数字下标
max_window_size: 背景词的词窗大小的最大值
@return:
centers: 中心词的集合
contexts: 背景词窗的集合,与中心词对应,每个背景词窗则为背景词的集合
‘’’
centers, contexts = [], []
for st in dataset:
if len(st) < 2: # 每个句子至少要有2个词才可能组成一对“中心词-背景词”
continue
centers += st
for center_i in range(len(st)):
window_size = random.randint(1, max_window_size) # 随机选取背景词窗大小
indices = list(range(max(0, center_i - window_size),
min(len(st), center_i + 1 + window_size)))
indices.remove(center_i) # 将中心词排除在背景词之外
contexts.append([st[idx] for idx in indices])
return centers, contexts

all_centers, all_contexts = get_centers_and_contexts(subsampled_dataset, 5)

tiny_dataset = [list(range(7)), list(range(7, 10))]
print(‘dataset’, tiny_dataset)
for center, context in zip(*get_centers_and_contexts(tiny_dataset, 2)):
print(‘center’, center, ‘has contexts’, context)
注:数据批量读取的实现需要依赖负采样近似的实现,故放于负采样近似部分进行讲解。

Skip-Gram 跳字模型

在跳字模型中,每个词被表示成两个 d d 维向量,用来计算条件概率。假设这个词在词典中索引为 i i ,当它为中心词时向量表示为 v i R d \boldsymbol{v}_i\in\mathbb{R}^d ,而为背景词时向量表示为 u i R d \boldsymbol{u}_i\in\mathbb{R}^d 。设中心词 w c w_c 在词典中索引为 c c ,背景词 w o w_o 在词典中索引为 o o ,我们假设给定中心词生成背景词的条件概率满足下式:
$$

P(w_o\mid w_c)=\frac{\exp(\boldsymbol{u}_o^\top \boldsymbol{v}c)}{\sum{i\in\mathcal{V}}\exp(\boldsymbol{u}_i^\top \boldsymbol{v}_c)}

$$

负采样近似

由于 softmax 运算考虑了背景词可能是词典 V \mathcal{V} 中的任一词,对于含几十万或上百万词的较大词典,就可能导致计算的开销过大。我们将以 skip-gram 模型为例,介绍负采样 (negative sampling) 的实现来尝试解决这个问题。

负采样方法用以下公式来近似条件概率 P ( w o w c ) = exp ( u o v c ) i V exp ( u i v c ) P(w_o\mid w_c)=\frac{\exp(\boldsymbol{u}_o^\top \boldsymbol{v}_c)}{\sum_{i\in\mathcal{V}}\exp(\boldsymbol{u}_i^\top \boldsymbol{v}_c)}

$$

P(w_o\mid w_c)=P(D=1\mid w_c,w_o)\prod_{k=1,w_k\sim P(w)}^K P(D=0\mid w_c,w_k)

$$

其中 P ( D = 1 w c , w o ) = σ ( u o v c ) P(D=1\mid w_c,w_o)=\sigma(\boldsymbol{u}_o^\top\boldsymbol{v}_c) σ ( ) \sigma(\cdot) 为 sigmoid 函数。对于一对中心词和背景词,我们从词典中随机采样 K K 个噪声词(实验中设 K = 5 K=5 )。根据 Word2Vec 论文的建议,噪声词采样概率 P ( w ) P(w) 设为 w w 词频与总词频之比的 0.75 0.75 次方。

词嵌入进阶

“Word2Vec的实现”一节中,我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型,并通过词向量的余弦相似度搜索近义词。虽然 Word2Vec 已经能够成功地将离散的单词转换为连续的词向量,并能一定程度上地保存词与词之间的近似关系,但 Word2Vec 模型仍不是完美的,它还可以被进一步地改进:

  1. 子词嵌入(subword embedding):FastText 以固定大小的 n-gram 形式将单词更细致地表示为了子词的集合,而 BPE (byte pair encoding) 算法则能根据语料库的统计信息,自动且动态地生成高频子词的集合;
  2. GloVe 全局向量的词嵌入: 通过等价转换 Word2Vec 模型的条件概率公式,我们可以得到一个全局的损失函数表达,并在此基础上进一步优化模型。

实际中,我们常常在大规模的语料上训练这些词嵌入模型,并将预训练得到的词向量应用到下游的自然语言处理任务中。本节就将以 GloVe 模型为例,演示如何用预训练好的词向量来求近义词和类比词。

GloVe 全局向量的词嵌入

GloVe 模型

先简单回顾以下 Word2Vec 的损失函数(以 Skip-Gram 模型为例,不考虑负采样近似):

$$

-\sum_{t=1}^T\sum_{-m\le j\le m,j\ne 0} \log P(w^{(t+j)}\mid w^{(t)})

$$

其中

$$

P(w_j\mid w_i) = \frac{\exp(\boldsymbol{u}_j\top\boldsymbol{v}_i)}{\sum_{k\in\mathcal{V}}\exp(\boldsymbol{u}_k\top\boldsymbol{v}_i)}

$$

w i w_i 为中心词, w j w_j 为背景词时 Skip-Gram 模型所假设的条件概率计算公式,我们将其简写为 q i j q_{ij}

注意到此时我们的损失函数中包含两个求和符号,它们分别枚举了语料库中的每个中心词和其对应的每个背景词。实际上我们还可以采用另一种计数方式,那就是直接枚举每个词分别作为中心词和背景词的情况:

$$

-\sum_{i\in\mathcal{V}}\sum_{j\in\mathcal{V}} x_{ij}\log q_{ij}

$$

其中 x i j x_{ij} 表示整个数据集中 w j w_j 作为 w i w_i 的背景词的次数总和。

我们还可以将该式进一步地改写为交叉熵 (cross-entropy) 的形式如下:

$$

-\sum_{i\in\mathcal{V}}x_i\sum_{j\in\mathcal{V}}p_{ij} \log q_{ij}

$$

其中 x i x_i w i w_i 的背景词窗大小总和, p i j = x i j / x i p_{ij}=x_{ij}/x_i w j w_j w i w_i 的背景词窗中所占的比例。

从这里可以看出,我们的词嵌入方法实际上就是想让模型学出 w j w_j 有多大概率是 w i w_i 的背景词,而真实的标签则是语料库上的统计数据。同时,语料库中的每个词根据 x i x_i 的不同,在损失函数中所占的比重也不同。

注意到目前为止,我们只是改写了 Skip-Gram 模型损失函数的表面形式,还没有对模型做任何实质上的改动。而在 Word2Vec 之后提出的 GloVe 模型,则是在之前的基础上做出了以下几点改动:

  1. 使用非概率分布的变量 p i j = x i j p'_{ij}=x_{ij} q i j = exp ( u j v i ) q′_{ij}=\exp(\boldsymbol{u}^\top_j\boldsymbol{v}_i) ,并对它们取对数;
  2. 为每个词 w i w_i 增加两个标量模型参数:中心词偏差项 b i b_i 和背景词偏差项 c i c_i ,松弛了概率定义中的规范性;
  3. 将每个损失项的权重 x i x_i 替换成函数 h ( x i j ) h(x_{ij}) ,权重函数 h ( x ) h(x) 是值域在 [ 0 , 1 ] [0,1] 上的单调递增函数,松弛了中心词重要性与 x i x_i 线性相关的隐含假设;
  4. 用平方损失函数替代了交叉熵损失函数。

综上,我们获得了 GloVe 模型的损失函数表达式:

$$

\sum_{i\in\mathcal{V}}\sum_{j\in\mathcal{V}} h(x_{ij}) (\boldsymbol{u}^\top_j\boldsymbol{v}i+b_i+c_j-\log x{ij})^2

$$

由于这些非零 x i j x_{ij} 是预先基于整个数据集计算得到的,包含了数据集的全局统计信息,因此 GloVe 模型的命名取“全局向量”(Global Vectors)之意。

载入预训练的 GloVe 向量

GloVe 官方 提供了多种规格的预训练词向量,语料库分别采用了维基百科、CommonCrawl和推特等,语料库中词语总数也涵盖了从60亿到8,400亿的不同规模,同时还提供了多种词向量维度供下游模型使用。

torchtext.vocab 中已经支持了 GloVe, FastText, CharNGram 等常用的预训练词向量,我们可以通过声明 torchtext.vocab.GloVe 类的实例来加载预训练好的 GloVe 词向量。

import torch
import torchtext.vocab as vocab

print([key for key in vocab.pretrained_aliases.keys() if “glove” in key])
cache_dir = “/home/kesci/input/GloVe6B5429”
glove = vocab.GloVe(name=‘6B’, dim=50, cache=cache_dir)
print(“一共包含%d个词。” % len(glove.stoi))
print(glove.stoi[‘beautiful’], glove.itos[3366])

求近义词和类比词

求近义词

由于词向量空间中的余弦相似性可以衡量词语含义的相似性(为什么?),我们可以通过寻找空间中的 k 近邻,来查询单词的近义词。

def knn(W, x, k):
‘’’
@params:
W: 所有向量的集合
x: 给定向量
k: 查询的数量
@outputs:
topk: 余弦相似性最大k个的下标
[…]: 余弦相似度
‘’’
cos = torch.matmul(W, x.view((-1,))) / (
(torch.sum(W * W, dim=1) + 1e-9).sqrt() * torch.sum(x * x).sqrt())
_, topk = torch.topk(cos, k=k)
topk = topk.cpu().numpy()
return topk, [cos[i].item() for i in topk]

def get_similar_tokens(query_token, k, embed):
‘’’
@params:
query_token: 给定的单词
k: 所需近义词的个数
embed: 预训练词向量
‘’’
topk, cos = knn(embed.vectors,
embed.vectors[embed.stoi[query_token]], k+1)
for i, c in zip(topk[1:], cos[1:]): # 除去输入词
print(‘cosine sim=%.3f: %s’ % (c, (embed.itos[i])))

get_similar_tokens(‘chip’, 3, glove)

get_similar_tokens(‘baby’, 3, glove)

get_similar_tokens(‘beautiful’, 3, glove)

求类比词

除了求近义词以外,我们还可以使用预训练词向量求词与词之间的类比关系,例如“man”之于“woman”相当于“son”之于“daughter”。求类比词问题可以定义为:对于类比关系中的4个词“ a a 之于 b b 相当于 c c 之于 d d ”,给定前3个词 a , b , c a,b,c d d 。求类比词的思路是,搜索与 vec ( c ) + vec ( b ) vec ( a ) \text{vec}(c)+\text{vec}(b)−\text{vec}(a) 的结果向量最相似的词向量,其中 vec ( w ) \text{vec}(w) w w 的词向量。

def get_analogy(token_a, token_b, token_c, embed):
‘’’
@params:
token_a: 词a
token_b: 词b
token_c: 词c
embed: 预训练词向量
@outputs:
res: 类比词d
‘’’
vecs = [embed.vectors[embed.stoi[t]]
for t in [token_a, token_b, token_c]]
x = vecs[1] - vecs[0] + vecs[2]
topk, cos = knn(embed.vectors, x, 1)
res = embed.itos[topk[0]]
return res

get_analogy(‘man’, ‘woman’, ‘son’, glove)

get_analogy(‘beijing’, ‘china’, ‘tokyo’, glove)

get_analogy(‘bad’, ‘worst’, ‘big’, glove)

get_analogy(‘do’, ‘did’, ‘go’, glove)

参考

发布了17 篇原创文章 · 获赞 1 · 访问量 609

猜你喜欢

转载自blog.csdn.net/water19111213/article/details/104491841