一、遇见的坑:
1、Word2Vec和word2vec不是一个东西,word2vec包含了所有的方法,Word2Vec是word2vec文件下的一个类,用于模型相关的方法
2、word2vec导入数据集只能用word2vec.Text8Corpus(path)的方式去导入
3、保存、载入训练好的模型最好采用自带的方法:
model.save('abc.txt')
model2=word2vec.Word2Vec.load('abc.txt')
二、简单操作
from gensim.models import word2vec
path='D:\中文语料库\中文语料库/分词@13万_未知.txt' #分好的词
with open(path,'r',encoding = 'utf-8') as f: #只做展示用,没有任何用处
seg = f.readlines()
sentences = word2vec.Text8Corpus(path) #加载数据集model = word2vec.Word2Vec(sentences,min_count=0) #构建模型,直接训练了,min_count是最小词频,低于这个词频的词被忽略,默认为5
model.save('abc.txt') #保存模型model2=word2vec.Word2Vec.load('abc.txt') #加载模型
y = model2.similarity(u'阿爸',u'阿妈') #计算两个词的相似度