gensim中word2vec的使用

一、遇见的坑:

1、Word2Vec和word2vec不是一个东西,word2vec包含了所有的方法,Word2Vec是word2vec文件下的一个类,用于模型相关的方法

2、word2vec导入数据集只能用word2vec.Text8Corpus(path)的方式去导入

3、保存、载入训练好的模型最好采用自带的方法:

model.save('abc.txt')

model2=word2vec.Word2Vec.load('abc.txt')

二、简单操作

from gensim.models import word2vec

path='D:\中文语料库\中文语料库/分词@13万_未知.txt'         #分好的词

with open(path,'r',encoding = 'utf-8') as f:         #只做展示用,没有任何用处
    seg = f.readlines()
    
sentences = word2vec.Text8Corpus(path)               #加载数据集

model = word2vec.Word2Vec(sentences,min_count=0)     #构建模型,直接训练了,min_count是最小词频,低于这个词频的词被忽略,默认为5
model.save('abc.txt')                                #保存模型

model2=word2vec.Word2Vec.load('abc.txt')             #加载模型

y = model2.similarity(u'阿爸',u'阿妈')                #计算两个词的相似度

猜你喜欢

转载自blog.csdn.net/weixin_40240670/article/details/81207558