训练词向量时输入一般是1B 即包含10^9个单词(tokens)的一个超长字符串/10B/100B
- 可以使用的训练模型:
- Skip-Gram(考虑local )
- Glove(同时考虑了local 和 global)
- CBow(效果较差)
- RNN
- LSTM
- MF(Matrix Factorization)(考虑global)
- Gaussian Embedding
可以认为得到的词向量就代表单词的意思???
但训练词向量太耗费资源,一般都有现成的词向量
但垂直领域还需要自己训练
训练词向量时输入一般是1B 即包含10^9个单词(tokens)的一个超长字符串/10B/100B
可以认为得到的词向量就代表单词的意思???
但训练词向量太耗费资源,一般都有现成的词向量
但垂直领域还需要自己训练