概率图模型的综合叙述:
特征函数便是图中的conditional。对图简单的说明,综合概述Naive Bayes,Logistic Regression,HMM,Linear-chain CRF之间的关系。Naive Bayes经过条件参数的加入即为Logistic Regression,同时这两者经过序列化即特征函数加入了对相邻状态之间的判断即变为HMM和Linear-chain CRF,最后经过广义图模型的扩展变为最后两者。
马尔科夫随机场综述:
马尔可夫网络(Markov network),PGM(概率图模型)中的无向图模型,也即马尔可夫随机场( Markov random Field,MRF),是一个可以由无向图表示的联合概率分布,属于生成式模型。与“马尔可夫”有关的随机过程或概率模型般都是基于马尔可夫假设 的,也即下一个时间点的状态只与当前的状态有关系,换言之,决定你未来状态的不是你的过去而是你现在的状态。
马尔科夫随机场定义:
马尔可夫网络可用于表示变量之间的依赖关系,与贝叶斯网络不同的是,它可以表示贝叶斯网络无法表示的一些依赖关系,比如循环依赖:另一方面,它不能表示贝叶斯网络能够表示的某些关系,比如推导关系。
首先学习一下随机场的概念,其定义为:当给每一个位置中按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场。其中两个重要的概念是“位置”和“相空间”。“位置”好比是一亩亩农田“相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。马尔可夫随机场是具有马尔可夫特性的随机场。拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场。
图是由结点及连接结点的边组成的集合,结点和边的集合分别记作
V
V
V 和
E
E
E ,图记作
G
=
(
V
,
E
)
G=(V,E)
G = ( V , E ) 。无向图是指边没有方向的图。PGM就是用图表示概率分布,其中一个结点表示一个随机变量,如果两个随机之间有依赖关系就用一条边将它们连接起来。
假设有联合概率分布
P
(
Y
)
P(Y)
P ( Y ) ,
Y
=
{
y
1
,
y
2
,
…
,
y
n
}
Y=\{y_1,y_2,\ldots,y_n\}
Y = { y 1 , y 2 , … , y n } 是一组随机变量。由无向图
G
=
(
V
,
E
)
G=(V,E)
G = ( V , E ) 表示概率分布
P
(
Y
)
P(Y)
P ( Y ) ,即在图
G
G
G 中,结点
v
∈
V
v\in V
v ∈ V 表示一个随机变量
Y
Y
Y ,边
e
∈
E
e\in E
e ∈ E 表示随机变量之间的概率依赖关系。
首先,定义三个重要的概念
1、成对马尔可夫性:假设
u
u
u 和
v
v
v 分别是无向图
G
G
G 中任意两个没有边连接的结点,结点u和v对应的随机变量分别是
Y
u
Y_u
Y u 和
Y
y
Y_y
Y y ,其他所有结点集合为
O
O
O ,对应的随机变量集合为
Y
o
Y_o
Y o ,据此定义,成对马尔可夫性是指给定
Y
o
Y_o
Y o 的条件下
Y
u
Y_u
Y u 和
Y
v
Y_v
Y v 是条件独立的,即:
P
(
(
Y
u
,
Y
v
)
∣
Y
o
)
=
P
(
Y
u
∣
Y
o
)
P
(
Y
v
∣
Y
o
)
P((Y_u,Y_v)|Y_o)=P(Y_u|Y_o)P(Y_v|Y_o)
P ( ( Y u , Y v ) ∣ Y o ) = P ( Y u ∣ Y o ) P ( Y v ∣ Y o )
2、局部马尔可夫性:假设
v
a
n
y
∈
V
v_{any}\in V
v a n y ∈ V 是无向图
G
G
G 中任意一个结点,
W
W
W 是与
v
a
n
y
v_{any}
v a n y 有边连接的所有结点的集合,
O
O
O 是除
v
a
n
y
v_{any}
v a n y 和
W
W
W 以外的所有结点的集合,据此定义,局部马尔可夫性是指在给定
Y
W
Y_W
Y W 的条件下
Y
v
a
n
y
Y_{v{any}}
Y v a n y 和
Y
O
Y_O
Y O 是条件独立的,即
在
W
情
况
下
现
在
Y
v
a
n
y
,
Y
O
的
可
能
P
(
(
Y
v
a
n
y
,
Y
O
)
∣
Y
W
)
=
P
(
Y
v
a
n
y
∣
Y
W
)
P
(
Y
O
∣
Y
W
)
用
在
W
,
Y
O
情
况
下
现
在
Y
v
a
n
y
的
可
能
表
示
=
=
=
在
W
情
况
下
现
在
Y
v
a
n
y
,
Y
O
的
可
能
∵
P
(
(
Y
v
a
n
y
,
Y
O
)
∣
Y
W
)
=
P
(
Y
v
a
n
y
∣
(
Y
O
,
Y
w
)
)
P
(
Y
O
∣
Y
w
)
w
h
e
n
P
(
Y
O
∣
Y
w
)
>
0
∴
P
(
Y
v
a
n
y
∣
(
Y
O
,
Y
W
)
)
=
P
(
Y
v
a
n
y
∣
Y
W
)
\begin{array}{c} 在W情况下现在Y_{v_{any}},Y_O的可能 \\{P\left((Y_{v_ {any}}, Y_{O}) | Y_{W}\right)=P\left(Y_{v_{any}} | Y_{W}\right) P\left(Y_{O} | Y_{W}\right)} \\用在W,Y_O情况下现在Y_{v_{any}}的可能表示===在W情况下现在Y_{v_{any}},Y_O的可能 \\ \because P\left((Y_{v_{any}}, Y_{O})| Y_{W}\right)=P\left(Y_{v_{any}} |( Y_{O}, Y_{w})\right) P\left(Y_{O} | Y_{w}\right) \\ when \quad P\left(Y_{O} | Y_{w}\right)>0 \\ \therefore { P\left(Y_{v_{any}} | (Y_{O}, Y_{W})\right)=P\left(Y_{v_{any}} | Y_{W}\right)} \end{array}
在 W 情 况 下 现 在 Y v a n y , Y O 的 可 能 P ( ( Y v a n y , Y O ) ∣ Y W ) = P ( Y v a n y ∣ Y W ) P ( Y O ∣ Y W ) 用 在 W , Y O 情 况 下 现 在 Y v a n y 的 可 能 表 示 = = = 在 W 情 况 下 现 在 Y v a n y , Y O 的 可 能 ∵ P ( ( Y v a n y , Y O ) ∣ Y W ) = P ( Y v a n y ∣ ( Y O , Y w ) ) P ( Y O ∣ Y w ) w h e n P ( Y O ∣ Y w ) > 0 ∴ P ( Y v a n y ∣ ( Y O , Y W ) ) = P ( Y v a n y ∣ Y W )
局部马尔科夫示意图:
3、全局马尔可夫性:假设结点集合
A
A
A 和
B
B
B 是无向图
G
G
G 中被结点集合
C
C
C 分开的任意结点集合,如下图所示,据此定义,全局马尔可夫性是指在给定
Y
C
Y_C
Y C 的条件下
Y
A
Y_A
Y A 和
Y
B
Y_B
Y B 是条件独立的,即:
P
(
(
Y
A
,
Y
B
)
∣
Y
C
)
=
P
(
Y
A
∣
Y
C
)
P
(
Y
B
∣
Y
C
)
P\left((Y_{A}, Y_{B} )| Y_{C}\right)=P\left(Y_{A} | Y_{C}\right) P\left(Y_{B} | Y_{C}\right)
P ( ( Y A , Y B ) ∣ Y C ) = P ( Y A ∣ Y C ) P ( Y B ∣ Y C )
上述成对的、局部的、全局的马尔可夫性定义是等价的。有了上面的基础,我们就可以定义概率无向图模型:设有联合概率分布
P
(
Y
)
P(Y)
P ( Y ) ,由无向图
G
=
(
V
,
E
)
G=(V,E)
G = ( V , E ) 表示,在图
G
G
G 中,结点表示随机变量,边表示随机变量之间的依赖关系;如果联合概率分布
P
(
Y
)
P(Y)
P ( Y ) 满足成对的、局部的或全局的马尔可夫性,就称此联合概率分布为概率无向图模型,或马尔可夫随机场。
MRF的因式分解:
首先学习团、极大团和最大团的概念:无向图
G
G
G 中任何两个结点均有边连接的结点子集称为团;若
C
C
C 是无向图
G
G
G 的一个团,并且不能再加进任何一个
G
G
G 的结点使其成为一个更大的团,则称此
C
C
C 为极大团:在所有极大团中,结点最多的称为最大团。三个概念之间是层层递进关系,构成一个团的条件是集合中所有结点必须两两之间有边连接,因此
N
N
N 个点的团有
N
(
N
−
1
)
2
\frac{N(N-1)}{2}
2 N ( N − 1 ) 条边,就好比一个团队中所有人必须互相认识:极大团首先是团,然后其所有结点不能被更大的团所包含;最大团首先是极大团,然后所含结点数量最多。举个例子,下图表示一个由4个结点组成的无向图,图中由两个结点组成的团有5个:
{
Y
1
,
Y
2
}
,
{
Y
1
,
Y
3
}
,
{
Y
2
,
Y
3
}
,
{
Y
3
,
Y
4
}
,
{
Y
2
,
Y
4
}
\{Y_1,Y_2\},\{Y_1,Y_3\},\{Y_2,Y_3\},\{Y_3,Y_4\},\{Y_2,Y_4\}
{ Y 1 , Y 2 } , { Y 1 , Y 3 } , { Y 2 , Y 3 } , { Y 3 , Y 4 } , { Y 2 , Y 4 } 。有2个极大团:
{
Y
1
,
Y
2
,
Y
3
}
\{Y_1,Y_2,Y_3\}
{ Y 1 , Y 2 , Y 3 } 和
{
Y
2
,
Y
3
,
Y
4
}
\{Y_2,Y_3,Y_4\}
{ Y 2 , Y 3 , Y 4 } 。特别地,所有极大团恰好全部是最大团。由于
Y
1
Y_1
Y 1 和
Y
4
Y_4
Y 4 没有边连接,因此
{
Y
1
,
Y
2
,
Y
3
,
Y
4
}
\{Y_1,Y_2,Y_3,Y_4\}
{ Y 1 , Y 2 , Y 3 , Y 4 } 不是一个团。
在MRF中,多个变量之间的联合概率分布能基于团分解为多个因子的乘积,每个因子仅与一个团相关,称为MRF的因式分解。对于
n
n
n 个变量,
y
=
{
y
1
,
y
2
,
…
,
y
n
}
y=\{y_1,y_2,\ldots,y_n\}
y = { y 1 , y 2 , … , y n } ,假设无向图
G
G
G 中所有团构成集合
C
C
C ,与团$Q\in C
对
应
的
变
量
集
合
为
对应的变量集合为
对 应 的 变 量 集 合 为 Y_Q
,
则
M
R
F
的
联
合
概
率
分
布
,则MRF的联合概率分布
, 则 M R F 的 联 合 概 率 分 布 P(Y)$定义为:
P
(
Y
)
=
P
(
y
1
,
…
,
y
n
)
=
1
Z
∏
g
∈
C
ψ
Q
(
Y
θ
)
P(Y)=P\left(y_{1}, \ldots, y_{n}\right)=\frac{1}{Z} \prod_{g \in C} \psi_{Q}\left(Y_{\theta}\right)
P ( Y ) = P ( y 1 , … , y n ) = Z 1 ∏ g ∈ C ψ Q ( Y θ )
其中
ψ
Q
\psi_{Q}
ψ Q 为与团
Q
Q
Q 对应的势函数,用于对团Q中的变量关系进行建模,
Z
Z
Z 为规范化因子,以确保
P
(
Y
)
P(Y)
P ( Y ) 构成一个概率分布,其表达式为
Z
=
∑
Y
∏
Q
∈
C
ψ
Q
(
Y
Q
)
=
∑
y
1
,
…
,
y
n
∏
θ
∈
C
ψ
θ
(
Y
θ
)
Z=\sum_{Y} \prod_{Q \in C} \psi_{Q}\left(Y_{Q}\right)=\sum_{y_{1}, \ldots, y_{n} }\prod_{\theta \in C} \psi_{\theta}\left(Y_{\theta}\right)
Z = ∑ Y ∏ Q ∈ C ψ Q ( Y Q ) = ∑ y 1 , … , y n ∏ θ ∈ C ψ θ ( Y θ )
就是把所有可能的
n
n
n 个随机变量的取值分别带入求归一化。
显然,若变量个数较多,则团的数目将会很多,这将会给计算带来很大的负担。我们注意到,如果团
Q
Q
Q 不是即极大团,则它必然会被一个极大团
Q
∗
Q^*
Q ∗ 所包含,即
Y
Q
∈
Y
Q
∗
Y_Q\in Y_{Q^*}
Y Q ∈ Y Q ∗ ,这意味着变量
Y
Q
Y_Q
Y Q 之间的关系不仅体现在势函数
ψ
Q
\psi_{Q}
ψ Q 中,还体现在
ψ
Q
∗
\psi_{Q^*}
ψ Q ∗ 中。因此,我们可以简单一点直接基于极大团来定义联合概率分布
P
(
Y
)
P(Y)
P ( Y ) 。假设所有极大团构成的集合为
C
∗
C^*
C ∗ ,则有:
P
(
Y
)
=
P
(
y
1
,
…
,
y
n
)
=
1
Z
∗
∏
θ
∈
C
∗
ψ
Q
(
Y
Q
)
P(Y)=P\left(y_{1}, \ldots, y_{n}\right)=\frac{1}{Z^{*}} \prod_{\theta \in C^{*}} \psi_{Q}\left(Y_{Q}\right)
P ( Y ) = P ( y 1 , … , y n ) = Z ∗ 1 ∏ θ ∈ C ∗ ψ Q ( Y Q )
其中,
z
∗
z^*
z ∗ 的表达式为:
Z
∗
=
∑
Y
∏
Q
∈
C
∗
ψ
Q
(
Y
Q
)
=
∑
y
1
,
…
,
y
n
∏
Q
∈
C
∗
ψ
Q
(
Y
Q
)
Z^{*}=\sum_{Y} \prod_{Q \in \mathcal{C}^{*}} \psi_{Q}\left(Y_{Q}\right)=\sum_{y_{1}, \ldots, y_{n}} \prod_{Q \in \mathcal{C}^{*}} \psi_{Q}\left(Y_{Q}\right)
Z ∗ = ∑ Y ∏ Q ∈ C ∗ ψ Q ( Y Q ) = ∑ y 1 , … , y n ∏ Q ∈ C ∗ ψ Q ( Y Q )
接下来说一下势函数
ψ
Q
\psi_{Q}
ψ Q ,为了保证
ψ
Q
\psi_{Q}
ψ Q 的非负性,通常定义为指数函数:
ψ
Q
(
Y
Q
)
=
exp
{
−
E
(
Y
Q
)
}
\psi_{Q}\left(Y_{Q}\right)=\exp \left\{-E\left(Y_{Q}\right)\right\}
ψ Q ( Y Q ) = exp { − E ( Y Q ) }
其中,
E
(
Y
θ
)
E\left(Y_{\theta}\right)
E ( Y θ ) 称为
Y
Q
Y_{Q}
Y Q 的能量函数,是一个定义在变量
Y
Q
Y_{Q}
Y Q 上的实质函数,常见的形式为:
E
(
Y
Q
)
=
∑
u
,
v
∈
Q
,
v
≠
V
α
u
v
y
u
y
v
+
∑
v
∈
Q
β
v
y
v
E\left(Y_{Q}\right)=\sum_{u, v \in Q, v \neq V} \alpha_{u v} y_{u} y_{v}+\sum_{v \in Q} \beta_{v} y_{v}
E ( Y Q ) = ∑ u , v ∈ Q , v ̸ = V α u v y u y v + ∑ v ∈ Q β v y v
其中,
α
U
V
\alpha_{U V}
α U V 和
α
V
\alpha_{V}
α V 均为参数,第一项考虑每一对节点的关系,第二项考虑每一个单独节点的关系。
一个简单的例子:
如图所示简单马尔科夫随机场:
图中极大团:
{
x
2
,
x
5
,
x
6
}
,
{
x
1
,
x
2
}
,
{
x
2
,
x
4
}
,
{
x
1
,
x
3
}
,
{
x
3
,
x
5
}
\left\{\mathrm{x}_{2}, \mathrm{x}_{5}, \mathrm{x}_{6}\right\},\left\{\mathrm{x}_{1}, \mathrm{x}_{2}\right\},\left\{\mathrm{x}_{2}, \mathrm{x}_{4}\right\},\left\{\mathrm{x}_{1}, \mathrm{x}_{3}\right\},\left\{\mathrm{x}_{3}, \mathrm{x}_{5}\right\}
{ x 2 , x 5 , x 6 } , { x 1 , x 2 } , { x 2 , x 4 } , { x 1 , x 3 } , { x 3 , x 5 }
联合概率分布表达式:
P
(
X
)
=
P
(
x
1
,
x
2
,
x
3
,
x
4
,
x
5
,
x
6
)
=
1
Z
ψ
256
(
X
2
,
X
5
,
X
6
)
ψ
12
(
X
1
,
X
2
)
ψ
24
(
X
2
,
X
4
)
ψ
13
(
X
1
,
X
3
)
ψ
35
(
X
3
,
X
5
)
P(X)=P\left(x_{1}, x_{2}, x_{3}, x_{4}, x_{5}, x_{6}\right) \\ =\frac{1}{Z} \psi_{256}\left(X_{2}, X_{5}, X_{6}\right) \psi_{12}\left(X_{1}, X_{2}\right) \psi_{24}\left(X_{2}, X_{4}\right) \psi_{13}\left(X_{1}, X_{3}\right) \psi_{35}\left(X_{3}, X_{5}\right)
P ( X ) = P ( x 1 , x 2 , x 3 , x 4 , x 5 , x 6 ) = Z 1 ψ 2 5 6 ( X 2 , X 5 , X 6 ) ψ 1 2 ( X 1 , X 2 ) ψ 2 4 ( X 2 , X 4 ) ψ 1 3 ( X 1 , X 3 ) ψ 3 5 ( X 3 , X 5 )