从极大似然和后验的角度谈基本决策
在阅读这部分知识前,假设各位已经学习过概率论与数理统计,并能够较好的应用这部分知识。
设 个类 分别具有先验概率 。如果除了这些已知的类概率分布外,其他信息不得而知,则使分类错误率最小的决策规则是,若对象的: 则将该对象归属于 类。
这种分类决策按照最大先验概率把所有对象进行分类,而对于那些具有等同类先验概率的样本,随机地归入这些类中的任何一个。那对于观测向量或测量向量 ,我们希望将其归入C类中的某一类。 那应该如何分类?
如果向量 关于 类的概率,即 比关于其他所有类 的概率都大,则基于概率的决策规则将 归于 类。
这种决策规则将测量空间划分成 个区域 (区域 有可能是不联通的),如果 ,则 属于 类。
利用贝叶斯定理,可以通过使用先验概率 和类条件概率密度函数 来表示后验概率 :
讲过了基础知识,那接下来,让我们来谈一谈今天的重点内容:先验、后验还有极大似然。
1. 状态估计问题
前面讲过了模式 实际上是一个观测向量。那现在考虑这样的一个实际问题,当一个机器人在场景中工作时,如何根据摄像头或者是其他的传感器,来判断出它此刻的位姿?因为作者本人是做视觉SLAM时突发奇想才有了这个系列的博客,所以就拿视觉SLAM举例了。
我们如何通过观测数据 来估计机器人此刻的状态?
简而言之,我们希望通过观测数据 来推断出状态(以及它们的概率分布)。所以,我们说对机器人状态的估计,就是已知观测数据 的条件下,计算状态的条件概率分布:
为了和前文有较好的衔接,表达式中用的是 和 。而上式也被称为后验概率。利用贝叶斯公式,后验概率也可以表示为:
称为似然, 称为先验。求解最大后验概率相当于最大化似然和先验的乘积。
直观讲,似然是指“在现在的位姿下,可能产生怎样的观测数据”。由于我们知道观测数据,所以最大似然估计可以理解成:“在什么样的状态下,最可能产生现在观测到的数据”。这就是最大似然估计的直观意义。
2. 最小贝叶斯决策规则和最小风险贝叶斯决策规则
上面,我们非常粗略的讲了一下状态估计的问题。什么是状态估计,怎么来估计状态。接下来我们来看一看如何运用它以完成分类这一任务。
首先,我们来改写一下上面的决策规则:若
则将 归入 类。 这就是最小错误贝叶斯决策规则。
拒绝分类 —— 然而,在分类时,结果往往并不总是那么精确。当分类器把本属于某一类的样本分到另一个类时,就会导致错误。因此,拒绝对某样本做出决策可以降低错误率。被拒绝的样本有可能被抛弃,也有可能被搁置在一边,直至获得更多的信息,再对其进行分类决策。尽管拒绝分类能使原来较高的误识率得到减小或消除,但却有可能使某些被正确分类的样本也遭到拒绝。即,比较难分类的样本,容易发生错误。
最小错误贝叶斯决策规则是将 归入后验概率取得最大值的类,这时错分概率最小。下面介绍另一种决策规则,即期望损失或期望风险最小的规则——最小风险贝叶斯决策规则。
在许多应用中,错分损失不仅取决于样本所属的类,而且取决于样本被错分到的类。假设一个人得了重病,医生告诉他病状较轻并提出了医治手段常常比告诉他身体正常要好。这就需要我们为错分到类的代价赋值。
实际上,对代价赋值是非常困难的,有时候其代价可以用货币单位来计量。但大多数情况下,代价是以不同单位(金钱、时间、生活质量)衡量的多种因素的混合。因而它可能需要专家进行主观判断。
将样本 归入 类的条件风险定义为:
其中, 是将属于 的 归入 的代价。
区域 上的平均风险为
总的期望代价或风险为:
选择区域 ,如果 最小,则表示风险最小,这就是最小风险贝叶斯决策规则。
最小风险贝叶斯决策的特例是等代价的损失。将其带入,可发现这就是最小错误贝叶斯决策规则。
已是傍晚,今天就到这里了。如果有文章存在学术问题还望在评论区里留言。感谢大家的观看,你们的支持是对我最大的鼓励。