NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置

其他 2020-06-19 03:00:35 阅读次数: 0

使用 Gensim 来训练 word2vec 词向量模型的参数设置

文章目录

一、最小频次 min_count
二、词向量维度 size
三、并行处理核心数 workers

我们可以使用一些参数设置来控制训练的速度和质量。

一、最小频次 min_count

min_count 用来修剪内部的词表。

比如在一个 10 亿词级别的语料中，如果一个词只出现了一两次，那这个词不是错字就是垃圾～。

再说了，出现次数太少，我们也没有足够的数据来训练出该词的有意义的词向量，所以最好的做法就是：剔除。

# 准备语料
from gensim.test.utils import datapath
from gensim import utils
import gensim.models

class MyCorpus(object):
    """An interator that yields sentences (lists of str)."""

    def __iter__(self):
        corpus_path = datapath('lee_background.cor')
        for line in open(corpus_path):

            yield utils.simple_preprocess(line)
            
# 实例化数据预处理
sentences = MyCorpus()
# 训练模型，min_count 的默认值为 5
model = gensim.models.Word2Vec(sentences, min_count=10)
# 其中设置 min_count=10 表示出现频次 10 词以下的词被剔除

然后我们看下得到的新词表：

print(len(model.wv.vocab))

运行结果：

词表的词语总数从 1750 减少到了 889。

二、词向量维度 size

size 约定了我们训练得到的词向量的维度数量。

越大的维度数量，需要越多的训练数据，自然能得到更好的模型（更精确）。

通常设置在 几十～几百 之间。

# 默认 size=100
model = gensim.models.Word2Vec(sentences, size=200)
# 这里我们设置词向量维度为 200

三、并行处理核心数 workers

workers 用于设定训练的并行处理，以加快训练速度。

这是最后一个主要的训练参数。

# 默认值 workers=3
model = gensim.models.Word2Vec(sentences, workers=4)
# 这里我们设定并行处理核心数为 4

可以看到运行显示 4 个 threads，即 4 个线程。

注：

worker 这个参数起作用的前提是安装了 Cython，否则只能用单核。
在每个 batch 太大的时候，程序会提示 under 10 jobs per worker: consider setting a smaller 'batch_words' for smoother alpha decay

猜你喜欢

转载自blog.csdn.net/qq_42067550/article/details/106531036

NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置

NLP 利器 Gensim 来训练自己的 word2vec 词向量模型

NLP 利器 Gensim 中 word2vec 模型添加 model to dict 方法来加速搜索

NLP 利器 Gensim 中 word2vec 模型的训练损失计算，和对比基准的选择

NLP 利器 Gensim 中 word2vec 模型词嵌入 Word Embeddings 的可视化

NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示（基于 word2vec-google-news-300 预训练模型，附下载）

NLP 利器 Gensim 中 word2vec 模型的内存需求，和模型评估方式

NLP：使用 gensim 中的 word2vec 训练中文词向量

word2vec词向量训练及gensim的使用

gensim中word2vec训练向量

Gensim进阶教程：训练word2vec与doc2vec模型

利用Gensim 训练 Word2Vec

gensim ——训练word2vec词向量的使用方法。

文本分布式表示（三）：用gensim训练word2vec词向量

【NLP】【五】gensim之Word2Vec

NLP：Gensim库之word2vec

使用python+gensim训练2g语料的word2vec向量

Gensim 中 word2vec 模型的恢复训练：载入存储模型并继续训练

【word2vec】之训练模型结果的结构探究模型改造 python gensim

深度学习-nlp系列（4）：Word2Vec 字&词向量的训练和使用

词向量—Word2Vec入门及Gensim实践

gensim的word2vec如何得出词向量（python）

【python 走进NLP】word2vec 训练词嵌入模型

使用gensim训练中文语料word2vec

gensim Word2Vec 训练和使用

word2vec训练词向量

[NLP] 秒懂词向量Word2vec的本质+word2vec资源总结

自然语言处理（NLP）：06 word2vec训练中文模型-文本分类

NLP预训练模型综述：从word2vec, ELMo到BERT

python3下使用gensim中的word2vec训练文本并提取中间向量

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)