【NLP】_01_NLP基础知识
其他
2020-03-08 13:28:01
阅读次数: 0
【一】 Inverted Index(倒排索引)
- Vocabulary:[ Word1, Word2, …, WordN ]
- Word1: [ Doc1, Doc2, … ];Word2: [ Doc1, Doc2, … ];WordN: [ Doc1, Doc2, … ]
- 建立倒排表,用于快速检索,如搜索引擎
【二】 Noisy Channel Model
- Bayes 贝叶斯公式:P(A|B) = P(B|A) * P(A) / P(B)
- P(B) 一般为一个常数项,所以 P(A|B) ∝ P(B|A) * P(A)
- P(B|A) 一般称为 Translation Model,即翻译模型
- P(A) 一般称为 Language Model,即语言模型
- 应用场景一般与文本(text)有关,如 OCR,中英互译,密码破解,语音识别等
【三】 Language Model(语言模型)
- Chain Rule ( Bayes ):P(W1, W2, W3, …, Wn) = P(W1) * P(W2 | W1) * P(W3 | W1, W2) …
【四】 Markov Assumption(马尔科夫假设)
- 一种 近似估计 方法,弥补 LM 的稀疏性
- N Order Assumption:考虑前 N 个单词
【五】 Unigram Bigram N-gram(基础语言模型)
- Unigram(0 Order Assumption):P(W1, W2, W3, …, Wn) = P(W1) * P(W2) * P(W3) * … * P(Wn)
- Bigram(1 Order Assumption):P(W1, W2, W3, …, Wn) = P(W1) * P(W2 | W1) * P(W3 | W2) * … * P(Wn | Wn-1)
- N-gram(N-1 Order Assumption):不举例子了
【六】 Perplexity(一种评估语言模型的方法)
- Perplexity = 2 ^ (-x):x(average log likelihood)
- 主要针对 无监督(unsupervised)下的文本评估
【七】 Smoothing(解决冷启动问题)
【7.1】 Add-one Smoothing(拉普拉斯 Laplace)
【7.2】 Add-K Smoothing
【7.3】 Interpolation(考虑多种语言模型,如 Unigram + Bigram + Trigram)
【7.4】 Good-Turning Smoothing
- Good-Turning Smoothing 公式(
Nc 表示出现
c 次单词的个数)
- Good-Turning Smoothing 缺点
单词次数的出现大多数情况下 不是连续的,解决方法是通过 机器学习 去拟合一条曲线,大致的估计空缺的值
发布了57 篇原创文章 ·
获赞 5 ·
访问量 2876
转载自blog.csdn.net/qq_34330456/article/details/104110477