distributed representation 之训练词向量的几种方法

训练词向量时输入一般是1B 即包含10^9个单词(tokens)的一个超长字符串/10B/100B

  • 可以使用的训练模型:
    • Skip-Gram(考虑local )
    • Glove(同时考虑了local 和 global)
    • CBow(效果较差)
    • RNN
    • LSTM
    • MF(Matrix Factorization)(考虑global)
    • Gaussian Embedding

可以认为得到的词向量就代表单词的意思???
但训练词向量太耗费资源,一般都有现成的词向量
但垂直领域还需要自己训练

发布了542 篇原创文章 · 获赞 133 · 访问量 15万+

猜你喜欢

转载自blog.csdn.net/qq_41228218/article/details/103810607