LSA潜在语义分析中SVD的三个矩阵介绍 - 代码天地

LSA潜在语义分析中SVD的三个矩阵介绍

其他 2018-07-16 09:55:20 阅读次数: 0

奇异值分解在LSI中的应用

LSI的学习连接

LSI的详细解释

相似度分析

# -*- coding: UTF-8 -*-
from gensim import corpora, similarities, models
import jieba

# 训练样本
corpora_documents=[]
file=open("all_data.txt","r",encoding="utf8")
for item_text in file:
	words=item_text.strip().split()
	corpora_documents.append(words)
file.close()
# 生成字典和向量语料
dictionary = corpora.Dictionary(corpora_documents)
print(dictionary)
dictionary.save('dict.txt') #保存生成的词典
# dictionary=Dictionary.load('dict.txt')#加载

# 通过下面一句得到语料中每一篇文档对应的稀疏向量（这里是bow向量）
corpus = [dictionary.doc2bow(text) for text in corpora_documents]
# 向量的每一个元素代表了一个word在这篇文档中出现的次数
print(corpus)
# corpora.MmCorpus.serialize('corpuse.mm',corpus)#保存生成的语料
# corpus=corpora.MmCorpus('corpuse.mm')#加载

# corpus是一个返回bow向量的迭代器。下面代码将完成对corpus中出现的每一个特征的IDF值的统计工作
tfidf_model = models.TfidfModel(corpus)
corpus_tfidf = tfidf_model[corpus]

lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=20) # initialize an LSI transformation
corpus_lsi = lsi[corpus_tfidf]
all_topics=lsi.print_topics(num_words=149)
print(len(all_topics))
for topic in all_topics:
	print(len(topic[1].split("+")))
index = similarities.MatrixSimilarity(lsi[corpus])
print(index)

25*148=[25*20]*[20*20]*[20*148]

topics就是20*148可以根据这个找到词的关于主题的权重。

猜你喜欢

转载自blog.csdn.net/baidu_15113429/article/details/80852691

LSA潜在语义分析中SVD的三个矩阵介绍

LSA潜在语义分析

SVD分解——>潜在语义分析LSA(I)——>概率性潜在语义分析PLSA(I)

LSA潜在语义分析--转自CSDN

潜在语义分析Latent Semantic Analysis (LSA)

潜在语义分析（Latent Semantic Analysis，LSA）

潜在语义分析（LSA）（latent semantic analysis）

奇异值分解SVD、PCA主成分分析降维、潜在语义分析LSA之间的关系

机器学习之奇异值分解SVD及应用于协同过滤推荐和LSA潜在语义分析

奇异值分解与LSA潜在语义分析

【机器学习】潜在语义分析LSA和PLSA

LSI(LSA)潜在语义索引原理及sklearn中的实现

SVD分解出的三个矩阵的尺寸

[干货汇总]LSA及SVD介绍

潜在语义分析Latent semantic analysis note(LSA)原理及代码实现

机器学习与深度学习——基于潜在语义分析（LSA）的文档相似度计算

潜在语义分析

主题模型一——潜在隐语义索引（LSI/LSA）

LDA中的三个散度矩阵

NLP --- 文本分类（基于SVD的隐语意分析（LSA））

语义分析介绍及跨语言信息在语义分析中的应用

三个软件的分析

《统计学习方法（第2版）》李航第17章潜在语义分析 LSA LSI 思维导图笔记及课后习题答案（步骤详细）第十七章

算法：通过三个不同函数，将一个灰度值映射三个不同灰度值分别保存在三个不同的矩阵中，再把三个矩阵的值分别复制给一个新矩阵的三个通道中，这个新矩阵就是伪彩色图像矩阵，这样就由一张灰度图，得到一张伪彩色图像

基于sklearn.decomposition.TruncatedSVD的潜在语义分析实践

概率潜在语义分析（PLSA）（probabilistic latent semantic analysis）

Python中lambda的使用，与它的三个好基友介绍！

SpringMVC中HandlerInterceptor拦截器及接口中三个方法介绍

ARM中SP、LR、PC三个寄存器介绍

【RQNOJ85】三个袋子【矩阵乘法】

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)