论文:DeepWalk: Online Learning of Social Representations(社会表征的在线学习)重点讲解

相关资料:https://github.com/SkyWorkerCK/NetWork-Embedding

DeepWalk是一种学习网络中节点的表示的新的方法,是把language modeling的方法用在了social network里面,从而可以用deep learning的方法,不仅能表示节点,还能表示出节点之间的拓扑关系,也就是表现出社会网络的社会关系。如下图所示:

上图中在input中联系较为紧密的结点,映射到output中在空间上距离较近。

1. DeepWalk使用random walk的方法,random走过一串结点,产生一串结点组成的序列,等同于language modeling中的一个sentence,结点就等同于language modeling中的word。

为了证明DeepWalk用random walk可以借鉴language modeling的方法,做了一组对比,如下:

分布是大体相同的,所以可以用random walk来实现language modeling方法的迁移使用。

关于random walk:

2.  SkipGram 和 Hierarchical Softmax

Skip-Gram Model是根据某个词,然后分别计算它前后出现某几个词的各个概率。

Hierarchical Softmax用Huffman编码构造二叉树,其实借助了分类问题中,使用一连串二分类近似多分类的思想。

3. word2vec

生成 Distributed representation 形式的词向量,用的是word2vec的方法。得到你想要的processed corpus之后,将他们的one-hot向量作为word2vec的输入,通过word2vec训练低维词向量(word embedding)就ok了。不得不说word2vec是个很棒的工具,目前有两种训练模型(CBOW和Skip-gram),两种加速算法(Negative Sample与Hierarchical Softmax)。

这里需要注意的就是V通常是一个很大的数比如几百万,计算起来相当费时间,除了“爱”那个位置的元素肯定要算在loss里面,word2vec就用基于huffman编码的Hierarchical softmax筛选掉了一部分不可能的词,然后又用nagetive samping再去掉了一些负样本的词

4. Word Embedding

将word映射到一个新的空间中,并以多维的连续实数向量进行表示叫做“Word Represention” 或 “Word Embedding”。自从21世纪以来,人们逐渐从原始的词向量稀疏表示法过渡到现在的低维空间中的密集表示。用稀疏表示法在解决实际问题时经常会遇到维数灾难,并且语义信息无法表示,无法揭示word之间的潜在联系。而采用低维空间表示法,不但解决了维数灾难问题,并且挖掘了word之间的关联属性,从而提高了向量语义上的准确度。基于神经网络的分布表示一般称为词向量、词嵌入( word embedding)或分布式表示( distributed representation)。

如果要一句话概括词向量的用处,就是提供了一种数学化的方法,把自然语言这种符号信息转化为向量形式的数字信息。这样就把自然语言理解的问题要转化为机器学习的问题。神经网络词向量表示技术通过神经网络技术对上下文,以及上下文与目标词之间的关系进行建模。由于神经网络较为灵活,这类方法的最大优势在于可以表示复杂的上下文。Word embedding的训练方法大致可以分为两类:一类是无监督或弱监督的预训练;一类是端对端(end to end)的有监督训练。无监督或弱监督的预训练以word2vec和auto-encoder为代表。这一类模型的特点是,不需要大量的人工标记样本就可以得到质量还不错的embedding向量。不过因为缺少了任务导向,可能和我们要解决的问题还有一定的距离。因此,我们往往会在得到预训练的embedding向量后,用少量人工标注的样本去fine-tune整个模型。词向量既能够降低维度,又能够capture到当前词在本句子中上下文的信息(表现为前后距离关系)
 

Deep learning + NLP = DeepNLP

目前有两种训练模型(CBOW和Skip-gram),两种加速算法(Negative Sample与Hierarchical Softmax)

发布了25 篇原创文章 · 获赞 8 · 访问量 4486

猜你喜欢

转载自blog.csdn.net/weixin_42414405/article/details/97615539