python基于余弦相似度（Cosine Similarity）的检索系统

其他 2019-05-01 15:50:57 阅读次数: 0

版权声明：版权所有 https://blog.csdn.net/weixin_43907422/article/details/89322288

python基于余弦相似度Cosine Similarity的检索系统

下面是源码，不足之处请提出并指正：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import jieba

x = input("输入关键词：")
#输入查询关键词

seg_list1 = jieba.cut(x, cut_all=True)
a = "/".join(seg_list1)
a = a.split("/")
listx = list(a)
#查询关键词分词

result = []
#定义存储结果的列表
file = open("text.txt", encoding = 'utf-8')
#导入目标文件 
for line in file:
    y = line
    seg_list2 = jieba.cut(y, cut_all=True)
    b = "/".join(seg_list2)
    b = b.split("/")
    listy = list(b)
    #文件按行分割并分词
    
    setx = list(set(listx))
    sety = list(set(listy))
    set1 = set(listx + listy)
    countx = []
    county = []
    for i in set1:
         countx.append((listx.count(i) / len(listx)) * (1 / (setx.count(i) + sety.count(i))))
         county.append((listy.count(i) / len(listy)) * (1 / (setx.count(i) + sety.count(i))))
    sim1 = 0
    temp1 = 0
        #余弦相似度分子部分结果
    temp2 = 0
        #余弦相似度分母部分结果
    for k in range(len(set1)):
        sim1 += countx[k] * county[k]
        temp1 += (countx[k]) ** 2
        temp2 += (county[k]) ** 2
    sim2 = temp1 ** (1 / 2) * temp2 ** (1 / 2)
    sim = sim1 / sim2
    #余弦相似度计算过程
    
    result.append([sim, line])
    #结果载入列表
file.close()
#读取操作结束
result.sort()
result = result[::-1]
#相似度降序排名
result = result[0:10]
#取相似度前10名
f = open('result.txt', 'w')
for i in range(10):
    f.write(result[i][1] + "\n")
f.close()
#将结果写入文件

猜你喜欢

转载自blog.csdn.net/weixin_43907422/article/details/89322288

python基于余弦相似度（Cosine Similarity）的检索系统

基于内容的图像检索系统（合集）

基于内容的图像检索系统（总结）

基于SSH的音乐检索系统

基于内容的图像检索系统常用特征简介

基于LIRE的图像检索系统(C/S架构)

基于关键词的文本排序检索系统

基于C++的关键字检索系统

python.nlp随笔（四）简单的全文检索系统

检索系统向量化计算query-doc相似度

KNN cosine 余弦相似度计算

余弦相似度-Cosine Similar（转载）

[源码和文档分享]基于Python的Django框架实现的人物信息检索系统

Python 自然语言处理笔记（五）——信息检索系统，基于Lucene实现

语义检索系统【全】：基于Milvus+ERNIE+SimCSE+IBN实现学术文献语义检索系统完整版

计算pearson相似度和余弦(cosine)相似度

语义检索系统【三】：基于Milvus 搭建召回系统抽取向量进行检索，加速索引

基于DL的计算机视觉（11）-- 基于DL的快速图像检索系统

[搜索]Lucene仿百度文库文件检索系统

[源码和文档分享]基于C++的关键字检索系统

[源码和文档分享]JAVA实现的基于内容的图像检索系统设计与实现

[源码和文档分享]基于QT的英文文献的编辑与检索系统的实现

深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统

深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统

基于java语言及数据结构的电话号码检索系统

基于倒排索引算法的全文检索系统引擎的设计与实现

【综合实训】数字图像处理——基于内容的图像检索系统设计与实现

基于Flask和PyQt5实现的图像检索系统

语义检索系统【一】：基于无监督预训练语义索引召回：SimCSE、Diffcse

python中分词检索系统Jieba的三种分词模式

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)