GloVe----模型与损失函数

一、模型输入输出

输入是2组词向量,中心词向量W和上下文词向量W波浪线,输出是Xij的对数值

二、模型设计思想

1.W和W波浪线实际上应该是平等的,因为1个词在某些样本中是中心词,而在别的样本中是上下文词,都是同一个词

2.i,j,k3个词的词向量,应该能决定这个ratio,因为ratio是有意义的。

于是下面的定义,可以满足上面的设计需求

三、损失函数

损失函数采用加权MSE

这里f(x)的设计,有3点考虑:

1.当x趋近于0时,由于log x的平方趋于无穷大,因此f(x)必须有较大的导数快速趋近于0,从而保证J不爆炸

2.f(x)需要是递增的,从而保证罕见的Xij没有过分重要

3.f(x)在x特别大时,应该相对不能太大,保证高频的共现没有过分重要

综上,f(x)被设计为:

猜你喜欢

转载自www.cnblogs.com/mimandehuanxue/p/9025341.html
今日推荐