使用gensim的doc2vec生成文档向量 - 代码天地

使用gensim的doc2vec生成文档向量

其他 2018-05-31 09:24:37 阅读次数: 0

doc2vec是word2vec的延伸，同样使用无监督方法利用上下文对词语和文档向量进行训练。

doc2vec的输入是TaggedDocument向量，它包括word_list和tags两部分，word_list是文档的分词列表，如['火箭','是','总冠军',]。tags是文档的标签列表。

创建TaggedDocument对象：

document = TaggedDocdument(word_list,tags=label)

模型参数说明：
1.dm=1 PV-DM  dm=0 PV-DBOW。
2.size 所得向量的维度。 
3.window 上下文词语离当前词语的最大距离。
4.alpha 初始学习率，在训练中会下降到min_alpha。
5.min_count 词频小于min_count的词会被忽略。
6.max_vocab_size 最大词汇表size，每一百万词会需要1GB的内存，默认没有限制。
7.sample 下采样比例。
8.iter 在整个语料上的迭代次数(epochs)，推荐10到20。
9.hs=1 hierarchical softmax ，hs=0(default) negative sampling。
10.dm_mean=0(default) 上下文向量取综合，dm_mean=1 上下文向量取均值。
11.dbow_words:1训练词向量，0只训练doc向量。

定义模型：

model = Doc2Vec(dm=1, min_count=1, window=3, size=size, sample=1e-3, negative=5)

训练模型：

model.train(x_train, total_examples=model_dm.corpus_count, epochs=epoch_num)

保存模型：

model.save('model/model_my.model')

使用infer_vector来推理文档的向量 (输入text仍然是文档的分词列表)：

vector = model.infer_vector(text)

使用model.docvecs[tag]得到已训练文档的向量。

得到与输入文档相似度最高的十个文档：

sims = model.docvecs.most_similar([vector], topn=10)

猜你喜欢

转载自blog.csdn.net/weixin_39837402/article/details/80254868

使用gensim的doc2vec生成文档向量

基于gensim的doc2vec实践

Doc2Vec的简介及应用(gensim)

使用deeplearning4j训练Doc2Vec(文档向量)

NLP--gensim中doc2vec句向量实例

gensim 中tf-idf模型, word2vec 与 doc2vec 简单使用

基于gensim的Doc2Vec简析

【NLP】【六】gensim之doc2vec

Gensim库之Doc2Vec模型详解

用 Doc2Vec 得到文档／段落／句子的向量表达用 Doc2Vec 得到文档／段落／句子的向量

【机器学习】使用gensim 的 doc2vec 实现文本相似度检测

doc2vec使用说明（二）gensim工具包 LabeledSentence

用 Doc2Vec 得到文档／段落／句子的向量表达

自然语言处理--利用 Doc2vec 计算文档向量

中文自然语言处理--文档向量Doc2Vec

word2vec、doc2vec的使用

Gensim进阶教程：训练word2vec与doc2vec模型

Doc2Vec - 计算文档之间的相似性

Doc2Vec实践

基于gensim Doc2Vec的评论文本情感分类测试实验

gensim中doc2vec计算文本相似度

用gensim doc2vec计算文本相似度，Python可以跑通的代码

向量化算法doc2vec/str2vec整理

doc2vec原理及实践

Doc2vec实现原理

特征工程（三）Doc2Vec

Doc2Vec论文及实战

学习笔记|Doc2Vec

doc2vec介绍和实践

Doc2Vec模型详解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)