gensim包作为基础工具使用可以大大提高我们的效率。
先简单概括下gensim:
Gensim is a Python library for topic modelling, document indexing(LSA/LDA/SVD/TF-IDF等) and similarity retrieval with large corpora(word2vec/doc2vec/fasttext等).
Target audience is the natural language processing (NLP) and information retrieval (IR) community.
我主要是想用他来训练词向量,看的源码里面也有很多应用到word2vec、 KeyedVectors的地方,于是找到了这几个参考资料:gensim官网、python官网和GitHub,用到的时候直接API即可。
另外:从外部导入的包有些用法不清楚的可以去python官网搜索。譬如关于word2vec包