相似度：词移距离--Word Mover's Distance - 代码天地

相似度：词移距离--Word Mover's Distance

其他 2018-05-12 23:37:30 阅读次数: 1

一、概念

词移距离来自于论文：From Word Embeddings To Document Distances
从论文题目可以看出，主要是基于词向量的工作。w2v构造了一个词与词之间衡量相似度的方法，但是对于句子或者文档来说，单纯基于词的衡量方法在一定程度上遗漏了句子的信息，而WMD参考了EMD的内容，成为计算文档相似度的一种方法。

二、思想

如果希望反映出文档的内在含义，一个比较直观的方法是把文档表示为词向量的某个总结，如加权和形式：

\sum_{i, j}^{n} M_{i, j} D_{i, j}

$\sum_{i,j}^{n}M_{i,j}D_{i,j}$

其中矩阵D为词i与词j之间的语义矩阵，这里可以用词向量之间的欧式距离来表示。而矩阵M则是权重矩阵。
那么权重需要怎样确定呢？下面先介绍一下线性规划中的运输问题：
这里写图片描述

WMD与上面的运输问题最优解很相似，实际上可以看成文档1转化为文档2所需要付出的总代价，词与词之间的移动代价由语义距离决定，而权重矩阵则是最优化所需要求解的值。
如果将上述最优化问题转到WMD中，我们需要把文档看成一个分布，类似仓库中每个仓库不同的货物量，比如使用归一化的词频特征。
之后同样通过解最优化问题，得到的最小移动代价便是词移距离。

三、实战

简单的伪代码如下：

from pyemd import emd
doc1 = [token1, token2, ...]
doc2 = [token1, token2, ...]
vocab_len = len(set(doc1 + doc2))
# 计算词之间的语义距离
distance_matrix = compute_cosine_between_token(doc1, doc2)
distance_matrix.shape == (vocab_len, vocab_len)
# 计算归一化的词频概率
d1 = compute_normalized_word_freq(doc1)
d2 = compute_normalized_word_freq(doc2)
d1.shape == d2.shape == (vocab_len)
# 计算词移距离
wmd = emd(d1, d2, distance_matix)

猜你喜欢

转载自blog.csdn.net/sinat_33741547/article/details/80163719

相似度：词移距离--Word Mover's Distance

文本语义相似度衡量方法——词移距离（Word Mover's Distance,WMD）

文本语义相似度衡量方法——词移距离（Word Mover's Distance,WMD）

衡量文档相似性的一种方法-----词移距离 Word Mover's Distance

唐诗掠影：基于词移距离（Word Mover's Distance）的唐诗诗句匹配实践

EMD（earth mover's distance）

[文本语义相似] 基于Word2Vec的wmdistance (Word Mover Distance)

论文 DeepEMD: Differentiable Earth Mover‘s Distance for Few-Shot Learning 小样本训练图片分类

相似度：编辑距离--Levenshtein Distance

euclidean distance 和 cosine distance 欧几里得距离和余弦相似度

编辑距离（Edit Distance）

编辑距离 Edit Distance

编辑距离Edit Distance

Levenshtein distance（编辑距离）

曼哈顿距离（Manhattan Distance ）

倒角距离（Chamfer distance）

Leetcode - Shortest Word Distance

Distance

[转]字符串相似度算法（编辑距离算法 Levenshtein Distance）

利用编辑距离(Edit Distance)计算两个字符串的相似度

java 两字符串相似度计算算法（转）Levenshtein Distance编辑距离算法

java版编辑距离(字符串相似度)算法 levenshtein (edit distance)

18种和“距离(distance)”、“相似度(similarity)”相关的量的小结

动态规划——模型之：字符串相似度/编辑距离（edit distance）

字符串相似度算法（编辑距离算法 Levenshtein Distance）

计算两组标签相似度算法——levenshtein distance 编辑距离算法

汉明距离 Hamming Distance

Levenshtein Distance编辑距离算法

Hamming Distance 汉明距离

Hamming Distance汉明距离

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)