[文本语义相似] 基于simhash相似度 - 代码天地

[文本语义相似] 基于simhash相似度

其他 2020-05-18 10:10:30 阅读次数: 0

文本相似在问答系统中有很重要的应用，如基于知识的问答系统（Knowledge-based QA），基于文档的问答系统（Documen-based QA），以及基于FAQ的问答系统（Community-QA）等。像对于问题的内容，需要进行相似度匹配，从而选择出与问题最接近，同时最合理的答案。本节介绍基于simhash相似度。

算法描述：先计算两句子的simhash二进制编码，然后使用海明距离计算，最后使用两句的最大simhash值归一化得相似度。

from simhash import Simhash

def sim_simhash(s1, s2):
    """先计算两文档的simhash值，然后使用汉明距离求相似度"""
    # 1. 计算文本simhash值
    a_simhash = Simhash(s1, f=64)  
    b_simhash = Simhash(s2, f=64)
    max_hashbit = max(len(bin(a_simhash.value)), len(bin(b_simhash.value)))
    # 2. 计算汉明距离汉明距离
    distance = a_simhash.distance(b_simhash)
    # 3. 归一化到0~1
    sim = 1 - distance / max_hashbit  
    return sim

word1 = '这是什么'
word2 = '这个什么价钱'
word_sim = sim_simhash( word1, word2 )

了解本专栏

MachineLP

原创文章 377 获赞 835 访问量 187万+

关注他的留言板

猜你喜欢

转载自blog.csdn.net/u014365862/article/details/105967293

[文本语义相似] 基于simhash相似度

[文本语义相似] 基于Jaccard相似度

基于 SimHash 算法的文本相似度计算原理简介

[文本语义相似] 基于编辑距离相似度

simhash文本相似度比较

字面文本相似度算法——SimHash

使用simhash计算文本相似度

python simhash计算相似度

文本匹配（语义相似度）综述

文本相似度计算-google的simHash汉明距离

海量数据相似度计算之simhash短文本查找

python实现Simhash处理大规模文本相似度

【python 走进NLP】文本语义相似度合并算法

CNN在NLP领域的应用-文本语义相似度计算

[文本语义相似] 基于bow的余弦距离(gensim实现)

[文本语义相似] 基于bow的余弦距离(sklearn实现)

基于知网语义相似度的中文文本分类研究论文笔记

算法 # SimHash 算法：文本相似度、文本去重、海量文本快速查询

网页去重||SimHash（高效的文本相似度去重算法）——适合大批量文档的相似度计算

基于词频统计的文本相似度

文本相似去重 SimHash

语义相似度(实践篇)

语义相似度(理论篇)

无监督语义相似度

文本相似度

高效相似度计算 LSH minHash simHash的学习

基于相似度的方法

相似哈希simhash计算

Java 实现一个基于 SimHash 算法的海量相似文本检索工具

文本相似度-相似度度量

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)