word2vec 的使用和学习笔记

在进行word2vecde 词向量的使用之前,需要对数据进行结巴分词(import jieba)

需要训练的数据路径:

path = "c:\\User\\Administrator\\train.txt"

保存的路径:

 "c:\\User\\Administrator\\cut_file.txt"

结巴完成之后保存数据。

进行word2vec数据的训练,把完成保存,数据类型为.bin(二进制文件)(可以新建一个文本文件,打开,另存为,设置为.bin格式)

对训练完成的数据进行使用。

gensim.models.KeyedVectors.load_word2vec_format("C:\\Users\\Administrator\\data_ci.bin",binary = True)

这里需要注意的是:原先的word2vec.Word2Vec("C:\\Users\\Administrator\\data_ci.bin",binary = True)方法已经被弃用。

需要用:gensim.models.KeyedVectors.load_word2vec_format方法。

最后,使用

model.most_similar("需要查找的关键词",topn=n)   n为查找几个 与需要查找的关键词 相关的匹配度。

猜你喜欢

转载自blog.csdn.net/weixin_42013825/article/details/87900469
今日推荐