Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Subword Embeddings and Spelling

Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Subword Embeddings and Spelling

fasttext

FastText 是一个开源、免费、轻量级的库,允许用户学习文本表示和文本分类器
在这里插入图片描述
word2vec 和 glove 词嵌入技术无法处理语料库之外的词。这些嵌入技术将单词视为最小实体,并尝试学习它们各自的嵌入向量。因此,如果有一个词没有出现在语料库中, word2vec 或 glove 无法获得它们的向量化表示。

FastText 如何更好:
fasttext 遵循与 word2vec 相同的 skipgram 和 cbow 模型,它将每个单词视为由 n-gram 组成。也就是说,对于单词“India”来说,n 的值为 3,我们将“<in”、“ind”、“ndi”、“di>”作为 n-gram 表示。对于“India”这个词,我们可以将整个向量推断为所有字符 n-gram 的向量表示的总和。(这里假设超参数 [minn] 和 [maxn] 值为 3,其中 ‘minn’ 和’maxn’ 分别是最小和最大的 ngram)。符号 ‘<’ 和 ‘>’ 是特殊符号,被附加以显示令牌的开始和结束。(说明 和 ‘her’ 不一样 )
Fasttext 可以为训练语料库中没有出现的单词生成嵌入词向量

猜你喜欢

转载自blog.csdn.net/duan_zhihua/article/details/123565143