【NLP】_01_NLP基础知识


 


【一】 Inverted Index(倒排索引)

  • Vocabulary:[ Word1, Word2, …, WordN ]
  • Word1: [ Doc1, Doc2, … ];Word2: [ Doc1, Doc2, … ];WordN: [ Doc1, Doc2, … ]
  • 建立倒排表,用于快速检索,如搜索引擎

【二】 Noisy Channel Model

  • Bayes 贝叶斯公式:P(A|B) = P(B|A) * P(A) / P(B)
  • P(B) 一般为一个常数项,所以 P(A|B)P(B|A) * P(A)
  • P(B|A) 一般称为 Translation Model,即翻译模型
  • P(A) 一般称为 Language Model,即语言模型
  • 应用场景一般与文本(text)有关,如 OCR,中英互译,密码破解,语音识别等

【三】 Language Model(语言模型)

  • Chain Rule ( Bayes ):P(W1, W2, W3, …, Wn) = P(W1) * P(W2 | W1) * P(W3 | W1, W2)

【四】 Markov Assumption(马尔科夫假设)

  • 一种 近似估计 方法,弥补 LM 的稀疏性
  • N Order Assumption:考虑前 N 个单词

【五】 Unigram Bigram N-gram(基础语言模型)

  • Unigram0 Order Assumption):P(W1, W2, W3, …, Wn) = P(W1) * P(W2) * P(W3) * … * P(Wn)
  • Bigram1 Order Assumption):P(W1, W2, W3, …, Wn) = P(W1) * P(W2 | W1) * P(W3 | W2) * … * P(Wn | Wn-1)
  • N-gramN-1 Order Assumption):不举例子了

【六】 Perplexity(一种评估语言模型的方法)

  • Perplexity = 2 ^ (-x):x(average log likelihood)
  • 主要针对 无监督(unsupervised)下的文本评估

【七】 Smoothing(解决冷启动问题)

【7.1】 Add-one Smoothing(拉普拉斯 Laplace)
【7.2】 Add-K Smoothing
【7.3】 Interpolation(考虑多种语言模型,如 Unigram + Bigram + Trigram)
【7.4】 Good-Turning Smoothing
  • Good-Turning Smoothing 公式 N c N_c 表示出现 c c 次单词的个数)
  • Good-Turning Smoothing 缺点
     
    单词次数的出现大多数情况下 不是连续的,解决方法是通过 机器学习 去拟合一条曲线,大致的估计空缺的值
发布了57 篇原创文章 · 获赞 5 · 访问量 2876

猜你喜欢

转载自blog.csdn.net/qq_34330456/article/details/104110477
NLP