[文本语义相似] 基于bow的余弦距离(gensim实现) - 代码天地

[文本语义相似] 基于bow的余弦距离(gensim实现)

其他 2020-05-18 10:10:33 阅读次数: 0

文本相似在问答系统中有很重要的应用，如基于知识的问答系统（Knowledge-based QA），基于文档的问答系统（Documen-based QA），以及基于FAQ的问答系统（Community-QA）等。像对于问题的内容，需要进行相似度匹配，从而选择出与问题最接近，同时最合理的答案。本节介绍基于bow的余弦距离计算相似度。

基于gensim的方式如下：

import os
import jieba
import pickle
import logging
import numpy as np
from gensim import corpora, models, similarities


class StopWords(object):
    '''
    '''
    def __init__(self, stopwords_file=stopwords_file ):
        self.stopwords = set( [ word.strip() for word in open(stopwords_file, 'r') ] )
    
    def del_stopwords(self, words):
        return [ word for word in words if word not in self.stopwords ]

stop_word = StopWords()

# 是否分词、  及其停用词语
def _seg_word(words_list, jieba_flag=True, del_stopword=False):
    if jieba_flag:
        word_list = [[stop_word.del_stopwords(words) if del_stopword else word for word in jieba.cut(words)] for words in words_list]
    else:
        word_list = [[stop_word.del_stopwords(words) if del_stopword else word for word in words] for words in words_list]
    return word_list


word_list = ['我爱北京天安门', '你好，在干嘛呢', '这个什么价钱']
word_list = _seg_word(word_list)
dic = corpora.Dictionary(word_list, prune_at=2000000) 
# 保存模型
dic_path = './bow.model'
dic.save( dic_path ) 


# 加载模型
dic = corpora.Dictionary.load(dic_path)  

# 构建检索模型
bow_index_path = './bow_index.model'
corpus_model= [dic.doc2bow(word) for word in word_list]
bow_index = similarities.Similarity(bow_index_path, corpus_model, num_features=4000) 
bow_index.save(bow_index_path)



# 得到句子向量, 直接出检索结果(检索是基于word_list的)。
words = '你好，在干嘛呢'
word_bow = dic.doc2bow(_seg_word([words])[0])
bow_index[word_bow]

了解本专栏

MachineLP

原创文章 377 获赞 835 访问量 187万+

关注他的留言板

猜你喜欢

转载自blog.csdn.net/u014365862/article/details/105912872

[文本语义相似] 基于bow的余弦距离(gensim实现)

[文本语义相似] 基于bow的余弦距离(sklearn实现)

[文本语义相似] 基于tf-idf的余弦距离(gensim实现)

[文本语义相似] 基于ngram-tf-idf的余弦距离(gensim实现)

[文本语义相似] 基于simhash相似度

[文本语义相似] 基于Jaccard相似度

[文本语义相似] 基于bert的余弦距离(bert4keras实现)

[文本语义相似] 基于ngram-tf-idf的余弦距离(sklearn实现)

[文本语义相似] 基于tf-idf的余弦距离(sklearn实现)

[文本语义相似] 基于编辑距离相似度

文本语义相似度衡量方法——词移距离（Word Mover's Distance,WMD）

文本语义相似度衡量方法——词移距离（Word Mover's Distance,WMD）

基于知网语义相似度的中文文本分类研究论文笔记

[文本语义相似] 基于Word2Vec的wmdistance (Word Mover Distance)

使用余弦相似度实现文本相似度检测

基于Lucene、TF-IDF、余弦相似性实现长文本相似度检测

基于神经网络模型的释义识别、语义文本相似性、自然语言推理和问题回答

使用Gensim建立bow TFIDF LSI模型对文本相似度计算

【转】余弦相似度及基于python的三种代码实现、与欧氏距离的区别

python实现：欧氏距离/余弦相似度/皮尔逊相似度

文本相似度计算的几个距离公式（欧氏距离、余弦相似度、Jaccard距离、编辑距离）

文本向量的距离测度——欧氏距离、曼哈顿距离、余弦相似度

文本向量的距离测度——欧氏距离、曼哈顿距离、余弦相似度

文本相似度余弦相似度算法原理

使用余弦相似度算法计算文本相似度

文本相似度的衡量之余弦相似度

使用余弦相似度计算文本相似度

基于gensim包的潜在语义索引（LSI）模型的相似度查询

gensim计算余弦相似度采坑

使用sklearn 计算文本余弦相似度

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)