gensim 使用三 LDA模型使用 - 代码天地

gensim 使用三 LDA模型使用

其他 2018-12-18 22:13:49 阅读次数: 0

1、语料的处理：通过corpora.Dictionary把原始文本数据转为字典。将用字符串表示的文档转换为用id表示的文档向量。

因为输入数据为csv中的一列数据，故先进行预处理使其变为train[]样式的数据。

stopwords = [line.strip() for line in open('./stopword.txt', 'r',encoding='utf-8').readlines()]
def chinese_word_cut(mytext):
    seg_list = []
    seg_text = jieba.cut(mytext)
    for word in seg_text:
        if word not in stopwords:
            seg_list.append(word)
    return " ".join(seg_list)
df = pd.read_csv("datascience.csv",encoding='gb18030')
df["content_cutted"] = df.content.apply(chinese_word_cut)
train = []
for i in range(len(df["content_cutted"])):
    line = df["content_cutted"][i]
    line = line.split()
    train.append([w for w in line])
    #print(len(train))
    #print(train)
print(len(train))
dictionary = corpora.Dictionary(train)
corpus = [dictionary.doc2bow(text) for text in train]

2、生成LDA模型：三个参数，corpus id2word num_topics。

lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=8)

3、判断某个文档所属topic以及其关键词

test_doc=train[2]#查看训练集中第三个样本的主题分布
doc_bow = dictionary.doc2bow(test_doc)      #文档转换成bow
doc_lda = lda[doc_bow]                   #得到新文档的主题分布
#输出新文档的主题分布
print (doc_lda)
for topic in doc_lda:
    print ("%s\t%f\n"%(lda.print_topic(topic[0]), topic[1]))

4、模型保存与加载

lda.save('zhwiki_lda.model')
lda = models.ldamodel.LdaModel.load('zhwiki_lda.model')

4，几篇博客

https://blog.csdn.net/u010297828/article/details/50464845

https://blog.csdn.net/accumulate_zhang/article/details/62453672

http://www.cnblogs.com/chenbjin/p/5638904.html

猜你喜欢

转载自blog.csdn.net/qq_34333481/article/details/84648201

gensim 使用三 LDA模型使用

gensim使用

gensim主题模型使用

使用gensim中的lda模型训练主题分布--print_topics使用

使用gensim实现lda，并计算perplexity（ gensim Perplexity Estimates in LDA Model）

gensim使用汇总

在python中安装gensim包（为了使用LDA）

python 数据挖掘篇三 gensim 使用

gensim使用-初识gensim安装与TF-IDF使用

开始使用gensim入门

使用gensim训练词向量

NLP神器——gensim工具使用

gensim中正确使用姿势

【gensim中文教程】开始使用gensim

gensim 使用之二从gensim到sklearn的格式转换

LDA 以及 Gensim 实现

Gensim and LDA: a quick tour

gensim---LDA---perplexity

gensim lda训练

Gensim中动态主题模型之dtmmodel的使用

gensim使用方法以及例子

Gensim Word2vec 使用教程

【gensim.word2vec使用】

gensim中word2vec的使用

gensim库的一些使用

使用Gensim构造词向量（简单版）

Gensim用LDA模型计算文档相似度

文本主题抽取：用gensim训练LDA模型

鬼吹灯文本挖掘4：LDA模型提取文档主题 sklearn LatentDirichletAllocation和gensim LdaModel 鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

gensim做主题模型

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)