一个简单但很难超越的Sentence Embedding基线方法论-笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/tiankong_/article/details/87689034

源码地址

https://github.com/PrincetonML/SIF

1.目的

创建句向量

2.方法

论文地址:

第一步,对句子中的每个词向量,乘以一个独特的权值。这个权值是一个常数αα除以αα与该词语频率的和,也就是说高频词的权值会相对下降。求和后得到暂时的句向量。

然后计算语料库所有句向量构成的矩阵的第一个主成分uu,让每个句向量减去它在uu上的投影(类似PCA)。

猜你喜欢

转载自blog.csdn.net/tiankong_/article/details/87689034
今日推荐