NLP(11): 词性标注实战

词性标注 Pos Tagging

1、introduction

每一行的单词对应它的词性
在这里插入图片描述
学习如何把一个句子中的每个单词进行标记
在这里插入图片描述

  • noisy channel model:
    argmaxP(z|s)=p(s|z)p(z)=p(w1w2w3…wn|z1z2z3…zn)p(z1z2…zn)

在这里插入图片描述

  • 前半部分:给定一个词性,出现该词的概率
  • 后半部分:biagram prob

目的:找到最好的z,使得在给定s下,词性的概率最大
在这里插入图片描述
加入log

需求:求出三个部分的概率:

  • step 1: compute A,B,PI
  • step 2:Viterbi algorithm

对于优化z中的参数解释:

将词性的序列对应隐状态序列,将词序列对应观测序列

  • p ( w i ∣ z i ) p(w_i|z_i) p(wizi): 从隐状态转移到观测序列的概率
  • p(z): 初始概率
  • p ( z t ∣ z t − 1 ) p(z_t|z_{t-1}) p(ztzt1)从t-1时刻的状态转移到t时刻的概率,在这里代表不同词性在文章中的关系

在这里插入图片描述
给定条件:每一个时刻的词的出现只与当前的词性相关。
假设: w i w_i wi当前词只依赖于当前的词性 z i z_i zi

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_51182518/article/details/113769024