ACL最近三年论文整理（word embedding专题）

文章目录

2018

Probabilistic fasttext for multi-sense word embeddings

传统的基于词典的嵌入的缺陷在于无法学习稀有单词的表示，为了克服这一缺陷，之前有人提出了FASTTEXT的方法来构造字符级别的n-gram嵌入，但是这种嵌入仍然是向量形式，无法解决多义性。为此，作者借鉴了概率建模的方法，实现了基于概率的快速文本模型PFT，PFT方法可对稀有词，不确定性信息，层次表示和多种词义进行建模。在该方法中，一个词对应一个混合概率函数，因此作者重新定义了相似度以应用于混合概率分布之间，损失函数的设定基于真实数据的energy要比虚假数据的energy更大的基本假设，还做了一些相似度计算和采样方面的简化工作。实验结果表明，带有简化的能量函数的子词均值向量的概率表示优于许多词相似性基线，并为多义词提供了无歧义的含义。

Word embedding and wordnet based metaphor identification and interpretation

本文提出了一种无监督的识别隐喻的方法，和以前在短语和句子级别上运行的算法不同，本文的方法是基于词的水平上的。在实验过程中，论文探讨了skip gram和CBOW这两个模型在执行预测任务时的优劣，以及input vector和output vector在计算相似度上的不同侧重点。在句子级和短语级上做的对比实验结果表明，论文模型超过其他无监督模型直指监督模型，为了检验其在应用中的实际效果，作者将其应用到谷歌和必应翻译系统中，并通过设计问卷检验翻译效果，结果发现论文模型的提升效果很不错

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

本文针对词向量的跨语言嵌入提出了一种无监督的方案，其基本思想是不同语言中的两个等价词应该有相似的分布，在计算出相似矩阵之后，用迭代求解法计算字典矩阵和映射矩阵，在具体求解过程中，还做了一些优化，比如说使用模拟退火的思路随机改变相似矩阵，防止落入局部最优，计算字典时仅考虑出现最频繁的几个单词，减少少见单词带来的噪音，使用CSLS，字典的双向归纳和重加权等到。对比实验结果表明无监督方法甚至可以超过有监督方法，消融实验结果表明做出的几点改进确实是有效的。

Learning domain-sensitive and sentiment-aware word embeddings

sentiment-aware指的是对单个词词的情感敏感，domain-sensitive的侧重点在于一个词的情感不能脱离上下文而存在。换句话说，域公共嵌入对应sentiment-aware，域特定嵌入对应domain-sensitive。本文号称融合了这两者，其实其本质是在传统的domain-sensitive为不同的领域学习同一单词的单独嵌入的思路的基础上，引入了domain-common的概念。实验在四个领域的句子级情感分类和两个数据集上的词汇级情感分类任务上进行，模型的效果很不错，还展示了几个具体的词在不同的domain下具有不同的含义的具体例子，证明了方法确实可行。模型的有效性来源于其一方面融合多个域的信息增强语义，另一方面保留每个域独特的一面

A rank-based similarity metric for word embeddings

本文针对词向量的相似性度量提出了一种新的方法APSP，和传统的APS相比，通过引入位于0到1之间的指数P来将更多特征纳入考虑。实验结果显示在相似性度量和离群点检测方面优于传统APS和向量余弦方法。

Searching for the X-factor: Exploring corpus subjectivity for word embeddings

本文的核心观点是基于主观语料库和客观语料库在执行主观任务时有不同的表现，为此，文章在一开始使用word2vec作为基线模型，在情感分类、主观分类和主题分类（这个不要求主观性）三个任务上证明了这一点。之后，文章做了一系列控制变量实验来探究造成主观词向量和客观词向量表现差异的因素，结果几个因素都不是显著的影响因素，作者也不太清楚咋回事，才有了标题中的X-Factor以表示未知量。之后，作者在word2vec的基础上提出了一种新的词向量，其本质就是在生成词向量的过程中对其进行情感分类，使得情感色彩接近的词在向量空间中更加接近，类似于聚类。实验表明结果小有提升，但看完整篇论文，search 了半天，啥也没search到。

Incorporating latent meanings of morphological compositions to enhance word embeddings

传统的单词嵌入方法在单词级别学习语义信息，而忽略了词素）的有意义的内部结构。现有的基于形态学的模型直接结合了词素来训练单词嵌入，但是仍然忽略了词素的潜在含义。论文利用词的词素构成的潜在含义来训练和增强词的嵌入，提出了三种LMM模型来利用词素的语义相似性。LMM-A假定单词的词素的所有潜在含义对该单词具有相同的贡献，对于一个词ti，首先将其语素分解成前缀、根词和后缀三部分，然后对每一部分的可能含义的embedding取平均之后再和ti的原始embedding取平均得到最终embedding；LMM-S的提出参考了注意力机制，为每一个语素赋予了一个额外的权重，这个权重是按照embedding的相似度直接计算出来的；为了进一步消除某些不相关的潜在含义对单词的影响，在LMM-M中，我们仅从Pi，Ri和Si中选择与标记ti具有最大相似性的潜在含义并进行加权组合。模型在单词相似度检测、句法类推、文本分类三个数据集上进行测试，超越了大多数基线模型且幅度很大，鲁棒性实验结果表明语料库大小和窗口长度对模型的影响不大，embedding可视化结果表明语素含义接近的词会靠在一起

2019

Unsupervised multilingual word embedding with limited resources using neural language models

获取多语言单词嵌入的常规方法是将预训练的单词嵌入映射到公共空间，这些方法旨在基于以下假设来找到线性变换：单语单词嵌入在语言之间近似同构。但是，已经证明该假设仅在特定条件下成立，并且在资源有限的情况下，这些方法的性能急剧下降。因此，本文提出了一种新方法，即使在只有少量的单语语料库可用或者单语语料库的域在不同语言之间不同时也能产生多语言嵌入。我们的模型在多种语言之间共享语言模型，旨在学习不同语言的通用顺序结构，例如通用的基本单词顺序规则（例如主语-动词宾语）。每种语言的词嵌入都是独立训练的，但是共享LSTM网络会鼓励将嵌入映射到同一空间，从而生成多语言词嵌入。在共享网络参数方面，共享的主要是双向LSTM的整体参数以及控制和判断句子开始和结束的参数（共享和符号可确保隐藏状态的开始和结束在同一空间中，而与语言无关，这鼓励模型获得多语言表示形式），非共享的主要是每种语言各自的embedding和向后演化的概率。我们模型的局限性在于它仅适用于具有共同词序规则的语言，要对齐具有不同词序的非常遥远的语言（例如英语和日语）是极其困难的。在低资源以及不同语言语料库基于不同的domain的限制条件下，做了跨语言嵌入和多语言嵌入的实验，在跨语言嵌入实验中，论文模型超越了其他监督和无监督模型，并且在增大语料库时，无监督基线模型的性能在下降，而论文模型的性能在上升；在不同域的多语言模型中，论文模型能超过无监督基线模型，但不能超过有监督基线模型，并且无监督学习在日语-英语对面前表现都很差。除此之外，论文通过构造无向邻接矩阵证明了词是非同构的，通过检查单词对齐任务中使用的英语单词的词性（POS）标签验证了模型可利用不同语言之间的顺序相似性来获得多语言词嵌入

Word2Sense: Sparse interpretable word embeddings

传统词嵌入方法为单词产生密集的表示，这些单词的坐标本身没有意义的解释，而本文设计了设计一个坐标对人有明确含义的可解释嵌入。论文在一个空间精确地描述了这样一个词的嵌入，其中每个维度对应一种意义。单词被表示为各种意义上的概率分布，因此每个坐标的大小表示相应意义上的单词的相对重要性。这样的嵌入会自然地抓住单词多义词的本质。不像以前的工作，如Word2vec和GloVe，我们的生成模型有一个自然的延伸，以消除多义词在短语境中的词义歧义。在训练语料库中，以人类可解释的方式对一个单词接受的意义信息进行编码的单一原型字嵌入。该嵌入算法在罕见词相似度任务和词关联度任务中优于Word2vec，在其他相似度任务和关联度任务中优于Word2vec，在2%以内;在隐含任务中表现优于sword2gm，性能优于Semeval-2010（Manandhar等人，2010）和MakeSense-2016（ Mu et al。，2017）的数据集，并且在（Huang et al。，2012）的上下文词相似性任务的最佳模型的1％之内。模型的具体过程是首先计算语料库上的共生矩阵，然后使用LDA来推断一个感觉模型，将一个词w编码为一个稀疏向量，接着从上下文中恢复语义并计算嵌入

Incorporating syntactic and semantic information in word embeddings using graph convolutional networks

大多数基于分布假设的方法仅对语料库中的每个单词使用顺序语境。但是，当相关的上下文单词超出窗口大小时，这将不是最佳选择。另一方面，较大的窗口大小可能会导致无关的词对词的嵌入产生负面影响。虽然基于语法上下文的方法可以解决上述问题，但所有现有的基于句法上下文的方法都严重扩展了词汇量，这限制了它们对大语料库的可扩展性。本文的方法则可以在不扩展词汇量的前提下利用单词间的依存关系得到合适的嵌入。在这里首先说一下语法和语义的区别，语法关系主要是一句话里面的主谓宾定状补，语义关系主要是词之间的同义词反义词上位词下位词等等。由于GCN不会将图形限制为树，并且已发现在捕获全局信息方面更有效。而且，由于它们不涉及难以并行化的递归操作，因此它们可提供实质性的加速，基于以上几种优势，本文模型使用GCN来实现。本文定义了两种图卷积网络，syngcn的目标是根据语法学习更好的词嵌入，而semgcn的目标是有效处理不同的语义信息。对于syngcn，首先计算出语料库的依赖解析图，节点是词，边就是语法关系，然后定义图中的邻居为目标词的上下文，并将上下文的嵌入输入到图卷积网络中来预测目标词的嵌入。SemGCN同样把单词作为节点，但边表示它们来自不同来源的语义关系，一个重要的区别是，在计算邻居时，SemGCN会把目标词本身纳入考虑，因为此时的词嵌入已经包含了足够多的语义信息，现在只是基于语法信息做一些微调，因此不能差太多。模型评估在内在任务和外在任务两个方向上进行，前者包括了词汇相似度、概念分类、词比喻，后者包括了命名实体识别、问答系统、词性标记、共同引用解析，在实验中，模型在大多数任务上都超越了其他经典模型。除此之外，由于ELMo只能捕捉顺序上下文中的信息，因此本文方法可以与其进行有效的互补。当将文中提出的两个图卷积网络相结合时，可以得到最佳效果。

Gender-preserving debiasing for pre-trained word embeddings

从社交媒体上学习到的语义表征，可以证明编码了相当程度的种族主义、冒犯性和歧视性语言，而去偏预处理的单词嵌入是一项具有挑战性的针对性任务，它需要在去除与偏见相关的信息和保留目标NLP任务所需的信息之间取得良好的平衡。现有的去偏方法主要关注的是男女性别指向，忽略了具有性别取向但不一定存在不公平偏见的词语的效果。本文方法与之前去除单词嵌入偏误的工作的一个关键特征是，它能够区分单词中不希望的(刻板的)偏误和希望的(预期的)性别信息。模型的工作过程如下，首先将词分为女无偏，男无偏，中性词，有偏词几个类型，然后针对前两者分别构造单个隐藏层的简单程度评估神经网络，并将编码器输出的结果送入其中，通过添加方差约束来训练评估器和自编码器；下一步是计算性别方向向量，它在一个epoch内部是固定的，在epoch之间被重新计算；之后是通过方差约束确保非性别相关词的嵌入与该方向向量正交；最后是定义重构误差，并将总损失函数定义为以上几种损失的加权组合。要注意的是，重构损失比其他损失更加重要，因此其权重也设得更大一些。实验一是检测偏见的去除效果，把不同类别的单词组合成对，利用余弦相似度筛选相似度最高的单词作为预测结果，实验结果表明最好的结果由GP得到，在无歧视词上正确率高而在有歧视词上正确率低。实验二是在在语义相似度和类比检测任务上衡量语义的保留情况，在类比检测任务上，使用所提出的方法进行去偏化不会导致性能显著下降；在进行语义相似性衡量任务时，由于这个任务需要将模型得出的相似度与人类打分得到的相似度做比较，而人类打分本来就是有性别歧视的因素的，因此作者根据性别重新平衡了原始数据集，将原始单词对的人类评分重新分配给它的衍生的相反性别版本，GP在所有基准数据集的平衡版本上获得最佳性能。此外，在原始数据集和平衡数据集上，带GP的GLove的性能与原始Glove的性能相当，这表明Glove嵌入中编码的信息在去偏置嵌入中得到保留，同时消除了陈规定型的性别偏见。最后是对不同类型的词得到的不同嵌入进行余弦相似度比较：原始的GloVe嵌入对于性别相关和性别歧视词有着相似的相似度分布，GN和Hard-Glove方法虽然降低了性别歧视的得分，但是性别中立的得分也同样降低了，而GP方法一方面降低了性别偏见，另一方面保留了性别中立和性别导向的词汇。

Effective Dimensionality Reduction for Word Embeddings

减小单词嵌入的大小可以提高它们在内存受限设备中的效用，有利于在现实世界应用。可以将处理算法应用于预先训练好的词向量，以进一步提高它们的质量。本文使用的PPA算法基于几何观察，即单词嵌入有一个大的平均向量，它们的大部分能量减去平均向量后位于一个约8维的子空间中。所有嵌入共享一个共同的均值向量，并且所有嵌入具有相同的支配方向，这两者都强烈地影响表示，消除它们使得嵌入更强，这可以通过比较由原始和后处理的词向量的前20个主成分分别解释的方差的分数来解释，在后处理的词嵌入中，就解释数据而言，没有一个主要的主成分是不成比例地占主导地位的，这意味着后处理的词向量不像原始嵌入那样受共同的主导方向的影响。这使得单个单词向量更具“区分性”，从而提高了它们的质量。文中提出的算法流程是PPA+PCA+PPA，之所以要在最后一步加上PPA，是因为作者观察到，尽管主成分分析已经被应用于后处理嵌入，其主要方向被消除了，但是在减少的嵌入中的差异仍然由一些顶部主成分不成比例地解释，这种几何行为的重新出现意味着进一步的PPA可以进一步改善嵌入，因此，为了构造低维的单词嵌入，我们在算法中的单词向量的主成分分析降维的两侧应用后处理算法。为了检验模型效果，首先在单词相似度评估任务上进行对比和消融实验（PCA、P+PCA、PCA+P），可以看到当词嵌入的维度降低之后效果有时甚至会变得更好，实验结果验证了我们的算法在构建低维词嵌入时是有效的，同时保持了与原始嵌入相似或更好的性能。在单词相似度任务上检验算法的有效性之后，进一步将其迁移到下游任务包括文本分类和句子相似性检测，文本分类任务的结果表明：我们的嵌入对下游分类任务是有效的，并且可以有效地减少输入大小和模型参数，而不会显著降低性能。总体来说，论文方法在构建低维的词嵌入方面是有效的，具有与原始嵌入相似或更好的性能。这可以允许在内存受限的环境中使用单词嵌入。未来，一个有趣的探索领域将是在降维的基础上应用压缩和有限精度表示，以进一步减小单词嵌入的大小，以及设计一个算法来自动选择D、N。

2020

BERTRAM: Improved Word Embeddings Have Big Impact on Contextualized Model Performance

许多方法被提出以解决稀疏词的词嵌入计算问题，有的利用了上下文信息，有的利用了词的表面形式，有的则二者兼有，但它们都是为非语境化的单词嵌入而设计的。而从预处理的深层语言模型中获得的语境化表示一般对稀有词隐式处理，BERT在稀有词探测任务中的表现可以通过使用注意力模仿(AM)显式学习稀有词的表示来显著改善。但AM有两个缺点：一个是使用上下文信息时利用了词袋模型，获得的信息不够多，第二个是将形式特征与上下文特征相结合得不够紧密，阻止了两种输入信号以复杂的方式相互作用。为了克服这些限制，我们引入了BERTRAM，这是一种用于学习罕见单词表示的新架构，它将预训练的BERT模型与AM相结合，学习到的稀有单词表示可以用作另一个BERT模型的改进输入表示。通过让BERTRAM从最底层开始访问表面形式和上下文，两个输入信号的深度集成成为可能。在介绍BEARTRAM之前，首先需要介绍一下FCM，它将surface-form和context的信息相结合，两者的embedding分别是靠对字符集的embedding和词级的embedding取平均来得到的，虽然FCM可以学会权衡形式和上下文部分，但这两个嵌入并不共享任何信息，因此不会相互影响。BERTRAM可以克服FCM的这一缺陷，其有BERTRAM-SHALLOW, BERTRAM-REPLACE和BERTRAM-ADD三种变种。BERTRAM-SHALLOW方法太过简单，只是更新了上下文嵌入的计算方式，两种嵌入还只是一种肤浅的结合；BERTRAM-REPLACE是使用单词的形式embedding去取代uncontextualized，然后预测单词的context embedding；BERTRAM-ADD是在预测时在输入的最前面加上单词的形式embedding以及冒号对应的embedding，它背后的直觉是，单词w的词汇定义和解释偶尔会以w:作为前缀。为了利用一个词的多重上下文，在我们的模型之上添加一个AM层，AM对所有嵌入应用一种自注意机制，使模型能够区分信息和非信息的上下文。最后的嵌入是所有嵌入的加权组合。传统稀有词数据集是为非上下文化嵌入而定制的，因此不适合评估我们的模型。此外，稀有词在常用的下游任务数据集中表现不佳。因此，我们引入了稀疏化，这是一个自动将评估数据集转换成稀有词保证重要的数据集的过程。这是通过使用语义资源如WordNet将与任务相关的常见单词替换为罕见的同义词来实现的。在具体训练时，mimicking是训练目标，由于端到端的训练太耗时，因此使用下列三阶段训练方式：一开始只训练上下文部分，然后训练所有的形式部分的嵌入，最后结合上下文部分和形式部分并计算所有参数。在训练过程中，我们冻结了BERT的所有参数，因为不需要通过BERT反向传播来获得所有所需的梯度，大大提高了训练速度，此外第三个训练阶段冻结form部分是有帮助的。实验结果显示BERTRAM大大提高了模型的表现，我们的分析表明，BERTRAM不仅对罕见词(本文的主要目标)有用，对频繁词也有用。在未来的工作中，我们希望研究BERTRAM对于这种频繁的单词的潜在好处。

Glyph2Vec: Learning Chinese Out-of-Vocabulary Word Embedding from Glyphs

由低维空间中的单词嵌入编码的语义和句法信息已经成为各种自然语言处理应用的有用特征，但是通常需要具有数十亿标记的大规模语料库来训练。但单词嵌入的一个自然限制是，以足够大的频率收集任何语言的全部词汇来训练每个单词的嵌入是不实际的，因为一些新单词可能出现在下游任务中。典型的解决方案是简单地将特定的UNK嵌入分配给所有没有出现在训练数据中的词汇外(OOV)单词。当前诸如使用子词(例如字符)的解决方案主要考虑由少量字符组成的字母语言(例如英语和法语)。这样的技术对于表意语言(例如，中文和日文)可能是不够的。本文解决OOV问题的一个关键观察与人类用中文概括的直觉相吻合，当中国用户阅读看不见的单词或字符时，通过分解结构，图形组件通常可以帮助中国用户理解字符的含义，有时还可以帮助他们理解字符的发音。因此论文研究了一个从字形中恢复中文OOV字嵌入的新应用：给定预训练的单词嵌入，可以直接学习从单词字形到它们的单词嵌入的映射，并为了生成OOV单词的嵌入而推广该映射。给定一个词w及其嵌入，我们学习从w到其嵌入的映射F,F由f和g两部分组成，g是一个视觉特征提取器，f则将特征从视觉空间映射到词向量空间。具体来说，g中包含两个部分，第一部分是将60×60的八位灰度图作为输入的卷积自编码器，可以为每个字输出512维的特征；第二部分是把仓颉输入法代码作为字符的高级注释，根据仓颉字典为每个字符构造一个根包(BoR)向量，每个BoR都是24维的二进制向量，代表一个字符的根。f的实现较为简单，就是一个使用GRU单元的双向RNN网络，最终的损失函数采用平方欧式距离。在实验中论文采用Word2Vec繁体中文300d单词嵌入，该嵌入在公共可用的中央研究院语料库4.0上预先训练，该语料库包括大约1000万个标记。可以观察到Glyph2Vec有以下几个优势，它能够通过将具有相同视觉特征的字符关联起来来建立视觉语义模型，因为Glyph2Vec是从字符的图像中学习的；利用字符级别的组合模型，它可以将每个字都没什么意义但连接起来就有意义的词比如对外国人名的音译关联起来；它在与其他字符连接时能保留字符的正确含义；它能将意义相似的不同字符联系起来等等。为了验证模型效果做了以下两个实验，第一个实验是词性和形态句法属性的联合标注，由于加入了视觉信息，Glyph2Vec始终优于Milobe，消融实验表明视觉+仓颉+字符嵌入可以带来最佳结果；第二个实验是维基百科标题分类。维基百科包含了许多很容易成为OOV词汇的罕见词汇，如术语、科学名称、地理位置等等。在这种具有挑战性的任务中，通过提供字形特征和仓颉BoR特征，性能可以显著提高。作者认为Glyph2Vec在繁体中文上是有效的，Glyph2Vec也可以应用于其他表意文字来处理OOV字。

ACL最近三年论文整理（word embedding专题）

文章目录

2018

Probabilistic fasttext for multi-sense word embeddings

Word embedding and wordnet based metaphor identification and interpretation

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

Learning domain-sensitive and sentiment-aware word embeddings

A rank-based similarity metric for word embeddings

Searching for the X-factor: Exploring corpus subjectivity for word embeddings

Incorporating latent meanings of morphological compositions to enhance word embeddings

2019

Unsupervised multilingual word embedding with limited resources using neural language models

Word2Sense: Sparse interpretable word embeddings

Incorporating syntactic and semantic information in word embeddings using graph convolutional networks

Gender-preserving debiasing for pre-trained word embeddings

Effective Dimensionality Reduction for Word Embeddings

2020

BERTRAM: Improved Word Embeddings Have Big Impact on Contextualized Model Performance

Glyph2Vec: Learning Chinese Out-of-Vocabulary Word Embedding from Glyphs

猜你喜欢