最大熵模型(三)

最大熵模型-极大似然估计

最大熵模型(一)讲诉了最大熵原理以及最大熵模型定义,最大熵模型(二)讲诉了最大熵模型的学习及其公式推导,本篇讲诉最大熵模型的极大似然估计。

最大熵模型

P w ( y | x ) = 1 Z w e x p ( i = 1 n w i f i ( x , y ) ) )

其中:
Z w ( x ) = y e x p ( i = 1 n w i f i ( x , y ) )

极大似然估计

对于给定数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , , ( x N , y N ) } ,其中 x 的可能取值记为 X = { v 1 , v 2 , , v m } y 的可能取值记为 Y = { γ 1 , γ 2 , , γ n } 。用 C ( X = v i , Y = γ j ) 表示样本 ( v i , γ j ) 在数据集中出现的次数。

采用极大思然估计模型参数,似然函数为:

L ( y 1 , y 2 , , y N | x 1 , x 2 , , x N ) = i = 1 N p ( x i | y i ) = X , Y p ( Y = γ j | X = v i ) C ( X = v i , Y = γ j )

两边同时开N次方,得:
L ( y 1 , y 2 , , y N | x 1 , x 2 , , x N ) 1 N = X , Y p ( Y = γ i | x = v j ) C ( X = v i , Y = γ j ) N = X , Y p ( Y = γ j | X = v i ) p ~ ( X = v i , Y = γ j )

p ~ ( X = v i , Y = γ j ) 表示数据集的经验概率分布。
对数似然为:
L p ~ ( P w ) = N l o g X , Y p ( Y = γ j | X = v i ) p ~ ( X = v i , Y = γ j ) = N X , Y p ~ ( X = v i , Y = γ j ) l o g p ( Y = γ j | X = v i )

L p ~ ( P w ) X , Y p ~ ( X = v i , Y = γ j ) l o g p ( Y = γ j | X = v i )

简记为:
L p ~ ( P w ) = x , y p ~ ( x , y ) l o g p ( y | x )

当条件概率是最大熵模型时,有:
L p ~ ( P w ) = x , y p ~ ( x , y ) ( i = 1 n w i f i ( x , y ) l o g Z w ( x ) ) = x , y p ~ ( x , y ) i = 1 n w i f i ( x , y ) x p ~ ( x , y ) l o g Z w ( x )

最大熵模型的对偶函数:

L ( P w , w ) = H ( p w ) + i = 1 n w i ( E p ~ ( f i ) E p w ( f i ) ) = x , y p ~ ( x ) p w ( y | x ) l o g p w ( y | x ) + i = 1 n w i ( x , y p ~ ( x , y ) f i ( x , y ) x , y p ~ ( x ) p w ( y | x ) f i ( x , y ) ) = x , y p ~ ( x ) p w ( y | x ) ( i = 1 n w i f i ( x , y ) l o g Z w ( x ) ) + x , y p ~ ( x , y ) i = 1 n w i f i ( x , y ) x , y p ~ ( x ) p w ( y | x ) i = 1 n w i f i ( x , y ) = x , y p ~ ( x , y ) i = 1 n w i f i ( x , y ) x , y p ~ ( x , y ) p w ( y | x ) l o g Z w ( x ) = x , y p ~ ( x , y ) i = 1 n w i f i ( x , y ) x p ~ ( x , y ) l o g Z w ( x )

因此有:

L p ~ ( P w ) = L ( P w , w )

即最大熵模型学习中对偶函数极大化等价于最大熵模型的极大似然估计。

参考文献

  1. 李航《统计学习方法》
  2. 陈希孺《概率论与数理统计》

猜你喜欢

转载自blog.csdn.net/chuqidecha/article/details/80491689