浅谈最大熵模型中的特征

最近在看到自然语言处理中的条件随机场模型时,发现了里面涉及到了最大熵模型,这才知道最大熵模型自己还是一知半解,于是在知乎上查阅了很多资料,发现特别受用,饮水思源,我将自己整理的一些资料写下来供大家参考

  1. 仅仅对输入抽取特征。即特征函数为\mathbf{f}(\mathbf{x})
  2. 对输入和输出同时抽取特征。即特征函数为\mathbf{f}(\mathbf{x}, y)

 

 

 

没错,一般说的“特征”都是指输入的特征,而最大熵模型中的“特征”指的是输入和输出共同的特征。
最大熵模型中的每个特征会有一个权重,你可以把它理解成这个特征所描述的输入和输出有多么倾向于同时出现。

可以以多类logistic regression为例,来感受一下两种视角的不同。
在一般的视角下,每条输入数据会被表示成一个n维向量,可以看成n个特征。而模型中每一类都有n个权重,与n个特征相乘后求和再经过softmax的结果,代表这条输入数据被分到这一类的概率。
在最大熵模型的视角下,每条输入的n个“特征”与k个类别共同组成了nk个特征,模型中有nk个权重,与特征一一对应。每个类别会触发nk个特征中的n个,这n个特征的加权和经过softmax,代表输入被分到各类的概率
 

猜你喜欢

转载自blog.csdn.net/weixin_36431280/article/details/83039187