Java 实现一个基于 SimHash 算法的海量相似文本检索工具 - 代码天地

Java 实现一个基于 SimHash 算法的海量相似文本检索工具

其他 2020-10-14 17:17:20 阅读次数: 0

背景

上一节介绍了 SimHash 算法的原理，本文来介绍怎么用 Java 实现 SimHash 算法，以及如何利用 SimHash 在海量文本中检索与指定文本相似的记录。

在海量文本中检索相似文本，它的难度在于：如果简单地去遍历所有 SimHash，分别做异或运算，判断它们与指定 SimHash 的汉明距离 <=3，这个时间复杂度与已有文本的体量有关，如果这个“海量” 是亿级的，等真找出来，花儿都哭了！

如何优化呢？

SimHash 检索原理

优化的依据是数学里面的鸽笼原理，这个概念有没有很耳熟？

先看看数学中的鸽笼原理：桌上有十个苹果，要把这十个苹果放到九个抽屉里，无论怎样放，我们会发现至少会有一个抽屉里面放不少于两个苹果。这一现象就是我们所说的“抽屉原理”。

同理，判断两个 SimHash 相似的依据是汉明距离小等于 3 ，如果我们把 64 位的 SimHash 切成 4 段，每段 16 位，那么不同的 3 位最多散落在 3 段中，所以 SimHash 中至少有 1 段是完全相同的。

以 SimHash 的每一段为 key ，创建索引，然后再用指定文本的 SimHash 的每一段去找与该段相同的文本的 SimHash ，再对二者计算汉明距离。这样就能将海量计算范围缩小到只计算有相同段的文本区域了。

基于 Redis 的 SimHash 索引

使用 Redis 缓存来设计 SimHash 索引的基本流程：
在这里插入图片描述

流程说明：

计算 SimHash ：对目标文本计算 SimHash 值，长度为 64 位；
拆解 SimHash 值为 4 段，每一段 16 位存入数组 hashs；
遍历数组 hashs，以该段的值为 key ，调用 RedisUtil.get(key) 判断是否有缓存记录；
matchedSimHash 为空，说明没有相似记录，则缓存目标文本的 SimHash 值，流程结束，对应流程图左侧 “结束”框上面的一条线的流程。

猜你喜欢

转载自blog.csdn.net/wojiushiwo945you/article/details/108841506

Java 实现一个基于 SimHash 算法的海量相似文本检索工具

终结篇：Java 实现 SimHash 算法和相似文本检索工具代码

JAVA实现simHash算法等工具类

simHash海量去重java实现

[文本语义相似] 基于simhash相似度

simHash 简介以及java实现

simHash 简介以及 java 实现

基于 SimHash 算法的文本相似度计算原理简介

SimHash算法

浅谈基于simhash的文本去重原理

python实现Simhash处理大规模文本相似度

simhash简单实现 python java （有助于更好的理解算法）

simhash原理以及用python3实现simhash算法详解（附python3源码）

字面文本相似度算法——SimHash

相似哈希simhash计算

算法 # SimHash 算法：文本相似度、文本去重、海量文本快速查询

simhash的py实现

LSH之simHash算法

SimHash算法原理

算法（二）--------SHA & Simhash

海量数据相似度计算之simhash短文本查找

simhash实现文本去重原理与工程化实现

simhash

【java 走进NLP】simhash 算法计算两篇文章相似度

使用SimHash进行海量文本去重

面试|海量文本去重~simhash

python simhash计算相似度

simhash文本相似度比较

文本相似去重 SimHash

使用simhash计算文本相似度

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)