Gensim 中 word2vec 模型的恢复训练:载入存储模型并继续训练

Gensim 中 word2vec 模型的恢复训练

本文为系列文章之一,前面的几篇请点击链接:
NLP 利器 gensim 库基本特性介绍和安装方式
NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示
NLP 利器 Gensim 来训练自己的 word2vec 词向量模型
NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置
NLP 利器 Gensim 中 word2vec 模型的内存需求,和模型评估方式

恢复训练

载入模型,并继续训练:

model = gensim.models.Word2Vec.load('./w2v.m')
more_sentences = [
    ['Advanced', 'users', 'can', 'load', 'a', 'model',
     'and', 'continue', 'training', 'it', 'with', 'more', 'sentences']
]
model.build_vocab(more_sentences, update=True)
model.train(more_sentences, total_examples=model.corpus_count, epochs=model.iter)

model.train 方法参数如下:

train(sentences=None, corpus_file=None, total_examples=None, total_words=None, epochs=None, start_alpha=None, end_alpha=None, word_count=0, queue_factor=2, report_delay=1.0, compute_loss=False, callbacks=())

其中 total_examples 或者 total_words 必须设置,如果语料 sentences 和提供给 build_vocab 中的相同,那么可以简单地写成 total_examples=self.corpus_count,另外 epochs 参数必须提供,如果我们只需要执行 train() 一次(推荐这么做),可以设置为 epochs=self.iter

注意:如果是 C 编写的模型,那重新载入后,无法继续训练!!!

猜你喜欢

转载自blog.csdn.net/qq_42067550/article/details/106576696