word embedding怎么处理未登录词 - 代码天地

word embedding怎么处理未登录词

编程语言 2019-04-17 21:26:50 阅读次数: 0

知乎：https://www.zhihu.com/question/308543084
第一种方法：
基本思路是尽可能找到还原语义的pre-trained embedding。步骤是：
1.原始词有没有2.全小写有没有3.全大写有没有4.首字母大写有没有5.三种次干化有没有6.长得最像的几种编辑方法有没有依次瀑布式查找。当然，最好的方式，是使用subword level的pre-trained language model，生成此OOV的contextual的特征。

第二种方法：
用UNK标签表示所有未登录词，但是UNK的embedding一般不会用零向量。
新增一个UNK标记，作为未登录词。
UNK词向量随机初始化，但是在训练集里面没有UNK，怎么训练它呢？那就在训练的时候根据词频 f(w) ，当f(w) > 2时，采用 z / (z + f(w)) 的概率把词随机变为UNK就行了， z 通常设为 0.8375 。

第三种方法：
加unk词，oov的词都assign到这上面，这是通常做法。而且有太多unk words说不定是你数据处理有问题，试试normalize一下。

猜你喜欢

转载自blog.csdn.net/haoshan4783/article/details/89357170

word embedding怎么处理未登录词

12.Word Embedding 如何处理未登录词？

Word Embedding 如何处理未登录词？

词嵌入 word embedding

词嵌入（word embedding）

词嵌入（word embedding）简记

词嵌入word embedding详解

自然语言处理：什么是词嵌入(word embedding)？

word embedding

词向量词嵌入 word embedding

AI（009） - 词嵌入（Word Embedding）

NLP（六）：word embedding（词嵌入）

词嵌入（Word Embedding）原理详解

自然语言处理从入门到应用——动态词向量（Dynamic Word Embedding）/上下文相关的词向量（Contextualized Word Embedding）

From Word Embedding to Sentence Embedding:从词向量到句向量

word处理

Word Embedding的通俗解释

Word Embedding 简述

Word Embedding/RNN/LSTM

Word Embedding理解

word-embedding

Unsupervised Learning: Word Embedding

Word Embedding总结

NLP笔记（word embedding）

Word Embedding与Word2Vec

Word Embedding & word2vec

one-hot（独热）、bag of word（词袋）、word-Embedding（词嵌入）浅析

深度学习使用word embedding(词嵌入)的原因

【NLP-01】词嵌入的发展过程(Word Embedding)

关于词嵌入（Word Embedding）的一些总结

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

VS2017编译opensmile具体过程和遇到的问题

PowerEnglish——mini-story3总结

微信小程序数据库获取字符串在view中显示换行

Java静态代码块/构造代码块/构造函数/静态变量/成员变量(相关示例)

Keras使用tensorflowjs部署demo

window下用git连接Github

图象的全变分和去噪

LeetCode刷题笔记--119. Pascal's Triangle II

【Linux】进程间通信 - 管道

polyA|ribo-minus|differentiated cell|Genetic heterogeneity

每日归档

更多

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)

2024-04-08(60)