Python训练Word2Vec和Doc2Vec - 代码天地

Python训练Word2Vec和Doc2Vec

其他 2018-10-31 07:31:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u010626747/article/details/54095733

软件要求：
Python3
gensim

预料：中文语料，存在txt文件中
语料要求：在txt中每一行为一个文档doc，进行分词，分词之间用空格或者tab键隔开

# 训练word2vec模型代码：

import multiprocessing
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

model = Word2Vec(LineSentence('语料.txt'), min_count=1, workers=multiprocessing.cpu_count()) # 这里workers设置为CPU的数量，可以增加训练的速度
model.save("模型保存路径")

# 重新加载训练好的模型
model = Word2Vec.load('模型保存路径')


# 训练doc2vec模型代码：

from gensim.models import doc2vec
from gensim.models.doc2vec import Doc2Vec
import multiprocessing

docslist = doc2vec.TaggedLineDocument('语料.txt') # path为txt的路径
model = Doc2Vec(docslist, workers= multiprocessing.cpu_count(),min_count=1)
model.save("模型保存位置")


接下来就可以使用训练好的模型了。

猜你喜欢

转载自blog.csdn.net/u010626747/article/details/54095733

Python训练Word2Vec和Doc2Vec

word2vec 和 doc2vec

Word2vec 和 Doc2vec 总结

word2vec和doc2vec的总结

word2vec、doc2vec的使用

Gensim进阶教程：训练word2vec与doc2vec模型

深度学习笔记——Word2vec和Doc2vec训练实例以及参数解读

word2vec 和 doc2vec 相似和区别

数据转换Word2Vec和Doc2Vec

动手实践word2vec和doc2vec模型

word2vec和doc2vec模型详解及应用

【译】如何在每次训练中都得到相同的word2vec/doc2vec/Paragraph Vectors

深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析

深度学习笔记——Word2vec和Doc2vec应用举例：词和句子的相似度计算

深度学习笔记——基于Word2vec和Doc2vec的句子对匹配方法

深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析

DOC2VEC:所涉及的参数以及WORD2VEC所涉及的参数

Doc2Vec,Word2Vec文本相似度初体验。

gensim 中tf-idf模型, word2vec 与 doc2vec 简单使用

情感分类 doc2vec vs. word2vec

wiki中文文本语料下载，在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

Python Word2Vec训练和测试词向量

doc2vec介绍和实践

【自然语言处理】word2vec/doc2vec基础学习以及简单实践

Doc2Vec实践

word2vec

Doc2Vec训练相似文章识别模型

word2vec训练词向量

word2vec训练中文语料

Word2vec训练方法

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)