相似文本topN你计算 python - 代码天地

相似文本topN你计算 python

其他 2018-12-03 16:50:02 阅读次数: 0

#!/usr/bin/Python
# -*- coding: utf-8 -*-
'''
1.读取文档
2.对要计算的多篇文档进行分词
3.对文档进行整理成指定格式，方便后续进行计算
4.计算出词语的词频
5.【可选】对词频低的词语进行过滤
6.建立语料库词典
7.加载要对比的文档
8.将要对比的文档通过doc2bow转化为词袋模型
9.对词袋模型进行进一步处理，得到新语料库
10.将新语料库通过tfidfmodel进行处理，得到tfidf
12.通过token2id得到特征数 
13、稀疏矩阵相似度，从而建立索引,排序 
14、获得topN的结果

'''
# jieba 用于分词
import jieba
# corpora 建立语料库  models 计算tfidf  similarties 计算相似性
from gensim import corpora,models,similarities
# 训练集
doc0 = "我不喜欢上海"
doc1 = "上海是一个好地方"
doc2 = "北京是一个好地方"
doc3 = "上海好吃的在哪里"
doc4 = "上海好玩的在哪里"
doc5 = "上海是好地方"
doc6 = "上海路和上海人"
doc7 = "喜欢小吃"
# 测试集
doc_test="我喜欢上海的小吃"
all_doc = []
all_doc.append(doc0)
all_doc.append(doc1)
all_doc.append(doc2)
all_doc.append(doc3)
all_doc.append(doc4)
all_doc.append(doc5)
all_doc.append(doc6)
all_doc.append(doc7)

print(all_doc)

all_doc_list = []
for doc in all_doc:
    doc_list = [word for word in jieba.cut(doc)]
    print(doc_list)
    all_doc_list.append(doc_list)

doc_test_list = [word for word in jieba.cut(doc_test)]
print("========================")
print(doc_test_list)
dictionary = corpora.Dictionary(all_doc_list)
print("=====================")
print(dictionary)
print(dictionary.keys())
print("================")
print(dictionary.token2id)
print("=================")
# doc2bow制作语料库
corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]
print("====================")
print(corpus)

tfidf = models.TfidfModel(corpus)

doc_test_vec = dictionary.doc2bow(doc_test_list)
print("======================")
print(tfidf[doc_test_vec])

index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
sim = index[tfidf[doc_test_vec]]
print(sim)

print(sorted(enumerate(sim), key=lambda item: -item[1]))

猜你喜欢

转载自blog.csdn.net/u011243684/article/details/84620605

相似文本topN你计算 python

python文本相似度计算

利用python计算文本相似度

【python 走进NLP】文本相似度各种距离计算

如何用python做文本相似度计算

Python文本分析 | 余弦相似度的计算

Python 文本挖掘:使用gensim进行文本相似度计算

ML：文本、图像等数值化数据相似度计算之余弦相似度计算三种python代码实现

利用python及jieba分词和gensim模块计算文本相似度

机器学习算法Python实现：gensim里的similarities文本相似度计算

python用Levenshtein计算文本相似度（附带所有个人对函数的理解）

python实现机器学习中的各种距离计算及文本相似度算法

用gensim doc2vec计算文本相似度，Python可以跑通的代码

python计算相似矩阵

python simhash计算相似度

Python计算余弦相似度

python计算图片的相似度

Python短文本相似度比较

Python开发之利用TF特征向量和Simhash指纹计算中文文本的相似度的示例

【python 走进NLP】句子相似度计算--余弦相似度

python 文本分词+文本相似度分析

Python科学计算初探——余弦相似度

Python计算图片之间的相似度

1.python计算相似度

python fuzzywuzzy 模糊匹配，计算相似度

Python实现图片相似度计算

基于Python计算余弦相似性

python/pytorch计算tensor的余弦相似度

【Python进阶】Python计算consine相似性矩阵

python+jieba+tfidf算法文本相似度

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)