概率密度函数估计介绍

       在贝叶斯分类器设计之中,需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。但是,在实际应用中,类条件概率密度通常是未知的。那么,当先验概率和类条件概率密度都未知或者其中之一未知的情况下,该如何来进行类别判断呢?其实,只要我们能收集到一定数量的样本,根据统计学的知识,我们是可以从样本集来推断总体概率分布的。一般来说,有以下几种方法可以解决这个问题:

一、监督参数估计:样本所属的类别及类条件总体概率密度函数的形式为已知,而表示概率密度函数的某些参数是未知的。例如,只知道样本所属总体分布形式为正态分布,而正态分布的参数u,6^2是未知的,监督参数估计的目的就是由已知类别的样本集对总体分布的某些参数进行统计推断。

二、非监督参数估计:已知总体概率密度函数形式但未知样本所属的类别,要求推断出概率密度函数的某些参数,这种推断方法称之为非监督情况下的参数估计。这里提到的参数估计和非监督参数估计中的监督和非监督是指样本所属的类别是已知还是未知。但无论哪种参数估计都是统计学中的经典问题,解决的方法很多,但最常用的有两种:一种是最大似然估计方法;另一种是贝叶斯估计方法。

三、非参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。统计学中常见的一些经典分布形式不总是能够拟合实际中的分布。此外,在许多实际问题中经常遇到多峰分布的情况,这就迫使我们必须用样本来推断总体分布,常见的总体类条件概率密度估计有直方图、核密度估计、K近邻估计等。

猜你喜欢

转载自1043693084-qq-com.iteye.com/blog/2266241