机器学习中的概率（1）

最近在看一些关于机器学习中的概率的书，而今天又闲来无事，不妨写下，与大家共同学习。

虽然概率是一个很难的问题，而且概率涉及到的东西特别的多，但是所有概率的计算都是围绕几个基本的公式来的：product rule，sum rule，bayasian theory；在说概率之前，我们思考一下什么是概率以及我们为什么在机器学习中时用概率？其实机器学习中的概率应该是一个很大的问题，涉及的东西特别多，因此我们将通过几篇文章来说明这个问题，今天我们仅仅说一下，什么是概率？我们为什么用概率？以及概率的几个基本公式。

1. 什么是概率？

说到概率，我们最先想到的应该是掷硬币的问题，例如某个人掷一个均匀的硬币，硬币在落地时正面向上的概率是0.5（均匀是为了硬币落地时，正面向上的概率和反面向上的概率相等）。但是这个概率是0.5到底意味着什么？？？是不是我投掷一枚硬币两次，在结果中一定有一次正面，一次反面？？答案肯定不是的，在这里其实概率有两种解释，接下来我们通过这两种解释来说明概率。

第一种解释是 频率派的观点，频率派认为掷一枚硬币很多次，最终正面向上的次数接近一半，即正面向上的次数除以投掷的总次数的比值应该接近于0.5，且随着投掷次数的增多，比值越来越接近0.5.这是频率派的观点，从频率派的角度来说，我们为了得到一件事的概率就需要对这件事重复很多次，且得到概率的准确度与重复实验的次数有关。

现在让我们来看第二种解释--- 贝叶斯派。贝叶斯的观点是概率是我们描述某件事的不确定性，即 概率是不确定性的度量。例如抛掷一枚硬币，正面向上的概率是0.5，即我们对硬币的落地结果正面向上还是反面向上的不确定性相等，即我们不能确定某件事更可能发生；再举个例子，明天下雨的概率是0.8，即相对于明天不下雨，我们更确定明天下雨。

2. 我们为什么使用概率？

世间最奇妙的事就是所有的事物都具有不确定性。既然有不确定性我们就要对不确定性进行度量，于是概率应运而生。关于概率的解释我们在机器学习中使用的是不确定性的度量，即贝叶斯派的观点， 因为很多的实验并不能重复很多次，从而也无法根据频率计算相应的概率。

3. 基本的公式

product rule : p(AB)=p(A)p(B|A)
sum rule : p(A)=sum_{B}p(AB)
bayasian theory : p(A|B) = p(A,B)/p(B)=p(A)p(B|A)/p(B)