自然语言处理--利用 Doc2vec 计算文档向量 - 代码天地

自然语言处理--利用 Doc2vec 计算文档向量

其他 2021-02-28 19:57:18 阅读次数: 0

与训练词向量类似，可以使用 gensim 包来训练文档向量。

import multiprocessing
# gensim Doc2vec 模块为语料库中的每篇文档包含了词向量嵌入和文档向量
from gensim.models.doc2vec import TaggedDocument, Doc2Vec
# gensim的simple_preprocess 单元是一个粗分词器，会去除单字母词和所有标点符号
from gensim.utils import simple_preprocess

# 统计CPU的核数，便于后面设定线程数量
num_cores = multiprocessing.cpu_count()

# 提供一个逐条遍历文档字符串的对象
corpus = ["This class provides a uniform interface to fast distance metric functions. ",
          "The various metrics can be accessed via the get_metric class method and the metric string identifier (see below).",
          "Though intended for integer-valued vectors, these are also valid metrics in the case of real-valued vectors.",
          "Here func is a function which takes two one-dimensional numpy arrays, and returns a distance."]

training_corpus = []
# 标记文档
for i, text in enumerate(corpus):
    tagged_doc = TaggedDocument(simple_preprocess(text), [i])
    training_corpus.append(tagged_doc)

# 实例化一个 Doc2vec 对象，滑动窗口大小为 10 个词，每个
# 词和文档向量 100 维，min_count 是词汇表中文档频率的最小值
model = Doc2Vec(size=100, min_count=2, workers=num_cores, iter=10)
# 模型开始训练之前需要对词汇表进行编译
model.build_vocab(training_corpus)
# 10 个训练周期后结束训练
model.train(training_corpus, total_examples=model.corpus_count, epochs=model.iter)

# 推理
# Doc2vec 在做新向量推理时需要一个训练步骤，此通过10 步（或迭代）来更新向量
result = model.infer_vector(simple_preprocess('Convert the true distance to the reduced distance.'), steps=10)
print(result)

猜你喜欢

转载自blog.csdn.net/fgg1234567890/article/details/112975073

自然语言处理--利用 Doc2vec 计算文档向量

中文自然语言处理--文档向量Doc2Vec

DL4J中文文档/语言处理/Doc2Vec

使用gensim的doc2vec生成文档向量

Doc2Vec - 计算文档之间的相似性

【自然语言处理】word2vec/doc2vec基础学习以及简单实践

Doc2Vec计算句子相似度

基于doc2vec计算文本相似度

用 Doc2Vec 得到文档／段落／句子的向量表达用 Doc2Vec 得到文档／段落／句子的向量

自然语言处理（NLP）：05 基于 doc2vec 特征抽取+电影情感文本分类

用 Doc2Vec 得到文档／段落／句子的向量表达

使用deeplearning4j训练Doc2Vec(文档向量)

向量化算法doc2vec/str2vec整理

doc2vec 句向量模型PV-DM与PV-DBOW原论文翻译

NLP--gensim中doc2vec句向量实例

NLP学习（九）文本向量化doc2vec及案例实现-Python3实现

句子/文档表征：SoW、BoW、TF-IDF、Hash Trick、doc2vec、DBoW、DM

gensim中doc2vec计算文本相似度

用gensim doc2vec计算文本相似度，Python可以跑通的代码

tensorflow在文本处理中的使用——Doc2Vec情感分析

文本处理+机器学习（doc2vec + 分类（离散点））：论文级别预测

深度学习笔记——Word2vec和Doc2vec应用举例：词和句子的相似度计算

自然语言处理词向量模型-word2vec

自然语言处理之word2vec原理词向量生成

自然语言处理Word2Vec词向量模型

干货｜自然语言处理中的词向量 — word2vec！

中文自然语言处理--词向量Word2Vec

NLP自然语言处理之Word2Vec(一）词向量

【自然语言处理】Word2Vec 词向量模型详解 + Python代码实战

自然语言处理-词向量模型-Word2Vec

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)