相似哈希simhash计算 - 代码天地

相似哈希simhash计算

其他 2019-02-22 11:01:25 阅读次数: 0

simhash计算原理：

简单的将，一篇文档的simhash（64位）是这样计算的：定义一个长度为64的数组s[]，初始化为0。针对文档中的每一个词，计算词的hash（64位），如果hash第i位为1，则将数组s[i]加1，否则s[i]减1。所有的词计算完毕后，将数组收缩：如果>0，置为1，否则置为0。得到64个0或1数字，组合成64位的数字，即为simhash。

注意：数组最好为64位，免得在位移操作时溢出（int溢出）导致不可预知的错误。

测试：

根据以上算法计算下面4篇文档的simhash（已手工分词）：

doc1：simhash 算法原理和代码实现
doc2：simhash 算法的原理 ( 转 )
doc3：simhash 算法的原理
doc4：simhash 与重复信息识别

计算结果为：

doc1的simhash：1416492156445077734

doc2的simhash：16134270046245056934

doc3的simhash：497754534934831522

doc4的simhash：12263517492683995739

他们之间的海明距离分别为：

	doc1	doc2	doc3	doc4
doc1
doc2	17
doc3	15	12
doc4	33	34	32

从表中可以看出doc2与doc3最相似，即"simhash 算法的原理 ( 转 )"与"simhash 算法的原理"最相似。

再添加一个doc5：simhash 的原理算法，由doc3调换词的顺序得来，发现doc3与doc5的simhash一样，二者最相似，与预期不一致。

这是由于考虑的特征太少所致，现在我们将词的顺序计算进来，简单的方法是将前后相邻的2个词拼接成一个组合词参与计算，这样就有了词的关联性。

重新计算的结果为：

doc1的simhash：15198202046059745510

doc2的simhash：14621043116870299878

doc3的simhash：9721126717995704674

doc4的simhash：10297596533213360614

doc5的simhash：12842524714518182744

他们之间的海明距离分别为：

	doc1	doc2	doc3	doc4	doc5
doc1
doc2	21
doc3	24	9
doc4	22	11	12
doc5	28	33	30	34

从表中看doc2与doc3最相似。

实际应用中可能要过滤掉常见词、标点符号、出现一次的词（很可能是噪音），添加其他特征。

猜你喜欢

转载自blog.csdn.net/hbuxiaoshe/article/details/38583041

相似哈希simhash计算

python simhash计算相似度

使用simhash计算文本相似度

文本相似度计算-google的simHash汉明距离

海量数据相似度计算之simhash短文本查找

高效相似度计算 LSH minHash simHash的学习

基于 SimHash 算法的文本相似度计算原理简介

哈希算法-图片相似度计算

[文本语义相似] 基于simhash相似度

海量数据相似度计算之simhash和海明距离

文本相似性计算总结（余弦定理，simhash）

【java 走进NLP】simhash 算法计算两篇文章相似度

【python 走进NLP】simhash 算法计算两篇文章相似度

网页去重||SimHash（高效的文本相似度去重算法）——适合大批量文档的相似度计算

相似性相关pHash和simhash

simhash文本相似度比较

文本相似去重 SimHash

字面文本相似度算法——SimHash

Python开发之利用TF特征向量和Simhash指纹计算中文文本的相似度的示例

图像相似度计算之哈希值方法OpenCV实现

文本相似度计算-JaccardSimilarity和哈希签名函数

基于感知哈希算法的图像相似匹配计算实战

simhash局部敏感哈希文章去重

去重相似哈希

simhash

[转] 文本相似性算法Simhash原理及实践

根据simhash找出集合中相似文档的算法

文本相似性算法Simhash原理及实践

python实现Simhash处理大规模文本相似度

Python实现图像相似度计算分析【余弦、统计学、直方图、通道、哈希、SSIM等多种相似度方法实现】

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)