海量文本相似度匹配

其他 2019-01-09 12:23:46 阅读次数: 0

1 词与词之间的匹配（主要用于分词，单词补全，模板匹配）

1.1 一对一

KMP

1.2一对多

前缀树

1.3多对多

给一个字典，再给一个m长的文本（m长的文本里面包含很多的词），问这个文本里出现了字典里的哪些字。

1.3.1 方法一：使用HashMap复杂度是O(maxLengh(word)*length(str))这样和字典的大小没有关系

1.3.2 方法二：AC自动机

https://blog.csdn.net/fkyyly/article/details/83988036

2 句子与句子之间的匹配

2.1 HashMap（索引）

离线的时候将海量的sentence分词，然后按照词建立索引，key是词，value是sentence list

实时查询的时候将句子分词，然后拿到这个词对应的sentence list，然后将获得的所有sentence list和用户输入的句子计算相似度。

2.2 simhash

https://blog.csdn.net/fkyyly/article/details/84503313

猜你喜欢

转载自blog.csdn.net/fkyyly/article/details/84998913

海量文本相似度匹配

文本相似度、文本匹配、文本聚类

文本相似度

文本相似度，文本匹配模型归纳总结

高亮显示与拼音汉字互转及文本相似度匹配

算法 # SimHash 算法：文本相似度、文本去重、海量文本快速查询

文本相似度算法

浅析文本相似度

关于文本相似度

文本相似度推荐

NLP文本相似度

文本相似度分析

文本相似度-相似度度量

文本相似度计算的常用方法

文本相似度计算-编辑距离

短文本相似度比较

短文本相似度计算

文本相似度之Levenshtein算法

短文本相似度笔记

python文本相似度计算

中文短文本相似度：WMD

NLP之文本相似度

文本相似度的方法对比

文本相似度表示与分词

利用python计算文本相似度

文本相似度和分类

DSSM算法-计算文本相似度

计算文本相似度方法

基于词频统计的文本相似度

短文本相似度(词向量)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)