数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导


   摘要:数学之美致力于普通人群也能看懂,所以选取的例子通俗易懂,这里也从文本分析等实际应用入手,进入概率图模型【马尔可夫随机场】,主要问题与上一篇隐马尔科夫模型中涉及的 概率计算模型训练预测算法一致。另外,吴军博士的叙述中使用的关键词有最大熵模型,且,刚刚提到主要问题与HMM一致,所以简单区分一下条件随机场(CRF)与他们的区别。为了方便整理思路,公式为手推-- 且后面训练【就是牛顿,改进迭代等优化算法】和 预测【维特比】都提到过,不再整理。

一 从应用问题引入

1.1 从HMM到CRF——自然语言处理

  如果从《统计学习方法》介绍随机场用于标记问题角度来说,这与第九章HMM关系密切,仍然可以用上一篇提到的通信模型处理自然语言来理解。如果用于语音识别,我们都是根据听到的语音进行解码得到真实的信息,也就是得到 P ( I O ) P(I|O) ,在此之前我们需要得到模型的参数,如何得到模型的参数就是两者最大的区别了。
  HMM是一个生成模型,怎么理解呢,就是要学习观测序列 O O 与状态序列 I I 的联合分布,得到 P ( O , I ) P(O,I) ,当有一个新状态的时候就会按照这个联合分布生成新的观测。好比,我们知道拟合了高斯分布,如果新的 x x 过来,就会按照这个高斯分布的参数 μ , \mu,\sum 来生成 y y 。这时,如果,要得到给定状态下输出都在模型得到的观测矩阵中了,如果对得到的语音进行解码得到 P ( I O ) P(I|O) 则需要进行概率公式近似计算,或者维特比算法求得最优路径。
  CRF是一个 判别模型[注: X X 表示观测序列, Y Y 表示状态序列],要做的是什么呢,直接学习 P ( Y X ) P(Y|X) ,就是说不管你是什么分布,我只负责学习给定观测序列下得到某个状态的概率的模型。如果对得到的语音进行解码,根据得到的有参数的 P ( Y X ) P(Y|X) 模型进行计算,运用维特比算法求解最优序列,也就是使这个条件概率最大的输出序列 Y Y

1.2 如何轻松愉快地理解条件随机场(CRF)?

  假设你有许多小明同学一天内不同时段的照片,从小明提裤子起床到脱裤子睡觉各个时间段都有(小明是照片控!)。现在的任务是对这些照片进行分类。比如有的照片是吃饭,那就给它打上吃饭的标签;有的照片是跑步时拍的,那就打上跑步的标签;有的照片是开会时拍的,那就打上开会的标签。问题来了,你准备怎么干?
  一个简单直观的办法就是,不管这些照片之间的时间顺序,想办法训练出一个多元分类器。就是用一些打好标签的照片作为训练数据,训练出一个模型,直接根据照片的特征来分类。例如,如果照片是早上6:00拍的,且画面是黑暗的,那就给它打上睡觉的标签;如果照片上有车,那就给它打上开车的标签。
  这样可行吗?
  乍一看可以!但实际上,由于我们忽略了这些照片之间的时间顺序这一重要信息,我们的分类器会有缺陷的。举个例子,假如有一张小明闭着嘴的照片,怎么分类?显然难以直接判断,需要参考闭嘴之前的照片,如果之前的照片显示小明在吃饭,那这个闭嘴的照片很可能是小明在咀嚼食物准备下咽,可以给它打上吃饭的标签;如果之前的照片显示小明在唱歌,那这个闭嘴的照片很可能是小明唱歌瞬间的抓拍,可以给它打上唱歌的标签。
  所以,为了让我们的分类器能够有更好的表现,在为一张照片分类时,我们必须将与它相邻的照片的标签信息考虑进来。而CRF就是这样一个可以考虑前后照片状态对照片进行分类的模型。那么也许会想到,HMM也是这样一个序列分类器啊,不足在哪呢,HMM是有向马尔可夫链,他的状态只与前一个状态有关,且他的输出(观测)至于相应的状态有关,而CRF 是无向马尔可夫链,前后状态均有关系,并且,输出(观测)可以根据前后几个状态决定,对于连续照片分类更有效,功能比HMM更强大

二 概率无向图模型

  那么介绍CRF之前,需要一些概率无向图的基本知识,补充之。
  概率无向图==马尔可夫随机场,是一个可以由无向图表示的联合概率分布

2.1 概率图模型定义

  首先图的定义不多说,就是 G = ( V , E ) G=(V,E) V V 表示节点, E E 表示边,无向图就是没有方向的图。在这里插入图片描述在这里插入图片描述在这里插入图片描述

2.2 概率无向图的因子分解

  团与最大团:G中任何两个节点均有连接的节点子集就是团;若C是G的一个团,并且加进任何一个节点都会导致C不是一个团,也就是不会称为一个更大的团,则C就是最大团。在这里插入图片描述
最大团与最大连通子图不一样,最大连通子图是把图的所有结点用最少的边将其连接起来的子图,所以极大连通子图不唯一在这里插入图片描述

三 条件随机场(CRF)基本问题

  条件随机场是计算联合概率分布的有效模型。
  概率图模型==马尔可夫随机场-------->条件随机场
  也就是在给定随机变量X的条件下,计算随机变量Y的马尔科夫随机场。主要学习的事线性链条随机场,用于标注问题,这时计算 P ( Y X ) P(Y|X) ,X表示输入变量,与观测序列对应,Y表示输出序列,需要标注的序列,也就是状态序列。
  训练(学习)时,利用训练数据集利用极大似然估计或者正则化的极大似然估计得到条件概率模型 P ^ ( Y X ) \widehat{P}(Y|X)
  预测时:对于给定的输入序列 x x ,求出使条件概率 P ^ ( y x ) \widehat{P}(y|x) 最大的输出序列 y ^ \widehat{y}

3.1 条件随机场定义

  在这里插入图片描述

3.2 CRF参数化形式

在这里插入图片描述在这里插入图片描述

3.3 CRF简化形式

在这里插入图片描述在这里插入图片描述

3.4 CRF矩阵形式

在这里插入图片描述在这里插入图片描述

四 CRF概率计算问题

在这里插入图片描述在这里插入图片描述在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_35479108/article/details/87939455