-
Add-one Smoothing即Laplace Smoothing 拉普拉斯平滑
- MLE(最大似然估计)
PMLE(wi∣wi−1)=c(wi)c(wi−1,wi)
其中c代表语料库词频
C(Wi−1,Wi)为在Wi出现之后, Wi-1出现多少次
- Add-one
PAdd−1(wi∣wi−1)=c(wi)+Vc(wi−1,wi)+1
V为语料库中的总单词量
-
Add-k Smoothing
PAdd−k(wi∣wi−1)=c(wj)+kVc(wi−1,wi)+k
超参数 k :
- 人工选择
- 机器自动选择:
- 在训练语言模型的时候 ,用语言模型的验证集语料库来计算语言模型的perplexity,即
perplexity(LM)=f(k)
最合适的k为k^=argminf(k)
-
Interpolation
解决只考虑Trigram时概率为零问题
在计算Trigram概率时同时考虑Unigram,Bigram, Trigram出现的频次,即把几个语言模型做一个加权平均,即
p(wn∣wn−1,wn−2)=λ1+λ2+λ3=1λ1p(wn∣wn−1,wn−2)+λ2p(wn∣wn−1)+λ3p(wn)
-
Good-Turning Smoothing
分一些概率给目前没有出现单词
- 没有出现的单词
最大似然估计(MLE),Good-Turning Smoothing(GT)
Nn即语料库中频数为n的单词个数
PMLE=0PGT=NN1
- 已出现的单词
c为已出现单词的频数
PMLE=NcPGT=Nc∗N(c+1)Nc+1