先验概率、后验概率、似然概率概念

先验概率，后验概率，似然概率，条件概率，贝叶斯，最大似然

1.先验概率：

在贝叶斯统计中，某一不确定量p的先验概率分布是在考虑”观测数据”前，能表达p不确定性的概率分布。它旨在描述这个不确定量的不确定程度，而不是这个不确定量的随机性。可以是基于历史数据的统计，可以由背景常识得出，也可以是人的主观观点给出。一般都是单独事件概率，如P(x),P(y)。

2.后验概率：

在贝叶斯统计中，一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样，后验概率分布是一个未知量（视为随机变量）基于试验和调查后得到的概率分布。或者说是基于先验概率求得的反向条件概率，与条件概率形式相同

贝叶斯公式：

P(y|x) = ( P(x|y) * P(y) ) / P(x)

其中：

P(y|x) 是后验概率，一般是我们求解的目标。

P(x|y) 是条件概率，又叫似然概率，一般是通过历史数据统计得到。一般不把它叫做先验概率，但从定义上也符合先验定义。

P(y) 是先验概率，一般都是人主观给出的。贝叶斯中的先验概率一般特指它。

P(x) 其实也是先验概率，只是在贝叶斯的很多应用中不重要（因为只要最大后验不求绝对值），需要时往往用全概率公式计算得到。

在使用贝叶斯定理时，我们通过将先验概率与似然函数相乘，随后标准化，来得到后验概率分布，也就是给出某数据，该不确定量的条件分布。
先验概率通常是主观的猜测，为了使计算后验概率方便，有时候会选择共轭先验。如果后验概率和先验概率是同一族的，则认为它们是共轭分布，这个先验概率就是对应于似然函数的共轭先验。

例如：假设y是文章种类，是一个枚举值；x是向量，表示文章中各个单词的出现次数。

在拥有训练集的情况下，显然除了后验概率P(y|x)中的x来自一篇新文章无法得到，p(x),p(y),p(x|y)都是可以在抽样集合上统计出的。

最大似然理论：

认为P(x|y)最大的类别y，就是当前文档所属类别。即Max P(x|y) = Max p(x1|y)*p(x2|y)*...p(xn|y), for all y

贝叶斯理论：

认为需要增加先验概率p(y)，因为有可能某个y是很稀有的类别几千年才看见一次，即使P(x|y)很高，也很可能不是它。

所以y = Max P(x|y) * P(y), 其中p(y)一般是数据集里统计出来的。