[文本语义相似] 基于tf-idf的余弦距离(gensim实现) - 代码天地

[文本语义相似] 基于tf-idf的余弦距离(gensim实现)

其他 2020-05-18 10:10:33 阅读次数: 0

文本相似在问答系统中有很重要的应用，如基于知识的问答系统（Knowledge-based QA），基于文档的问答系统（Documen-based QA），以及基于FAQ的问答系统（Community-QA）等。像对于问题的内容，需要进行相似度匹配，从而选择出与问题最接近，同时最合理的答案。本节介绍基于bow的余弦距离计算相似度。

基于gensim的方式如下：

import os
import jieba
import pickle
import logging
import numpy as np
from gensim import corpora, models, similarities


class StopWords(object):
    '''
    '''
    def __init__(self, stopwords_file=stopwords_file ):
        self.stopwords = set( [ word.strip() for word in open(stopwords_file, 'r') ] )
    
    def del_stopwords(self, words):
        return [ word for word in words if word not in self.stopwords ]

stop_word = StopWords()

# 是否分词、  及其停用词语
def _seg_word(words_list, jieba_flag=True, del_stopword=False):
    if jieba_flag:
        word_list = [[stop_word.del_stopwords(words) if del_stopword else word for word in jieba.cut(words)] for words in words_list]
    else:
        word_list = [[stop_word.del_stopwords(words) if del_stopword else word for word in words] for words in words_list]
    return word_list


word_list = ['我爱北京天安门', '你好，在干嘛呢', '这个什么价钱']
word_list = _seg_word(word_list)
dic = corpora.Dictionary(word_list, prune_at=2000000) 
# 保存模型
dic_path = './bow.model'
dic.save( dic_path ) 


# 加载模型
dic = corpora.Dictionary.load(dic_path)  

# 构建tfidf模型
tfidf_model_path = './tfidf_model.model'
corpus_model= [dic.doc2bow(word) for word in word_list]
# 构建检索模型
tfidf_model = models.TfidfModel(corpus_model)
tfidf_model.save(tfidf_model_path)
corpus_tfidf = tfidf_model[corpus_model]

tfidf_index_path = './tfidf_index.model'
tfidf_index = similarities.MatrixSimilarity(corpus_tfidf)
tfidf_index.save(tfidf_index_path)



# 得到句子向量, 直接出检索结果(检索是基于word_list的)。
words = '你好，在干嘛呢'
word_bow = dic.doc2bow(_seg_word([words])[0])
word_tfidf = tfidf_model[word_bow]
tfidf_index[word_tfidf]

了解本专栏

MachineLP

原创文章 377 获赞 835 访问量 187万+

关注他的留言板

猜你喜欢

转载自blog.csdn.net/u014365862/article/details/105913002

[文本语义相似] 基于tf-idf的余弦距离(gensim实现)

[文本语义相似] 基于ngram-tf-idf的余弦距离(gensim实现)

[文本语义相似] 基于tf-idf的余弦距离(sklearn实现)

[文本语义相似] 基于bow的余弦距离(gensim实现)

[文本语义相似] 基于ngram-tf-idf的余弦距离(sklearn实现)

基于Lucene、TF-IDF、余弦相似性实现长文本相似度检测

[文本语义相似] 基于bow的余弦距离(sklearn实现)

[文本语义相似] 基于simhash相似度

[文本语义相似] 基于Jaccard相似度

TF-IDF与余弦相似性

[文本语义相似] 基于编辑距离相似度

从零开始的文本TF-IDF向量构造和基于余弦相似度的文本分类

[文本语义相似] 基于bert的余弦距离(bert4keras实现)

Spark实现TF-IDF——文本相似度计算

TF-IDF及相关知识（余弦相似性）

TF-IDF算法与余弦相似性

TF-IDF算法和余弦相似度算法计算文本相似度（纯手撕）

TF-IDF及文本相似性度量

NLP文本相似度(TF-IDF)

python文本相似度分析tf-idf

python文本相似度分析：TF-IDF方法

TF-IDF与余弦相似性的应用（二）：找出相似文章

TF-IDF与余弦相似性的应用（二）：找出相似文章（转）

使用TF-IDF算法、THULAC和余弦相似性算法比较影评的相似程度

Python实现基于TF-IDF抽取文本数据关键词

TF-IDF与余弦相似性的应用（一）：自动提取关键词

TF-IDF与余弦相似性的应用（三）：自动摘要

TF-IDF与余弦相似性的应用（一）：自动提取关键词（转）

TF-IDF与余弦相似性的应用（三）：自动摘要（转）

自然语言处理--基于tf-idf和余弦相似度构建关键词搜索引擎（处理三篇文档）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)