写在开头

怎么说呢，在上一篇文章说是要写一下关于概率论和贝叶斯公式方面的东西，结果……好吧，就是我懒癌犯了(╯‵□′)╯︵┻━┻，今天一翻之前写的时间，5月8日，嗯，没错，妥妥的四个月之前，又因为之前立了个flag，搞得现在我不写这一篇我都不好意思继续发博客了。
其实之所以会犯懒癌果然还是自己写一篇博客的时间太久了，总是要这里翻翻那里翻翻，快的起来才怪呢，所以写博客并没有啥动力呢，不过在这里还是道歉一番，上一篇立下的flag完成了，不敢说之后的下一篇要多久，反正这一篇我是完成了的，废话不多说，我立刻开始~~~

概率公式

先上公式为敬：
条件概率：

P (B | A) = \frac{P (A B)}{P (B)}

$P(B|A) = \frac{P(AB)}{P(B)}$
全概率公式：

P (A) = \sum_{i} P (A | B_{i}) P (B_{i})

$P(A) = \sum_{i}{P(A|B_i) P(B_i)}$
贝叶斯（Bayes）公式：

P (B_{i} | A) = \frac{P (A | B_{i}) P (B_{i})}{\sum_{j} P (A | B_{j}) P (B_{j})}

$P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j}{P(A|B_j)P(B_j)}}$

都简单的解释一下，条件概率，什么是条件概率呢？有条件限制的概率即为条件概率， $P(B|A)$ 的意思就是在A事件已经发生的情况下，B发生的概率， $P(AB)$ 就是A和B同时发生的概率，公式的意思就是B在A发生下的概率为AB一起发生的概率除于B发生的概率。
什么叫做全概率呢？通俗的讲就是无数的条件概率加起来构成的概率。比如计算 $P（A）$ 可以简单的写成 $P(A) = P(AB) + P(A\overline{B})（A = AB \bigcup A\overline{B} 和 AB \bigcap A\overline{B} = \emptyset）$ 这是谁都无法否认的。比如这里有 $B_1-B_5$ 5个事件（B必为完备事件组），这几个事件都会对A发生的概率产生影响，那么最终 $P(A) = P(A|B_1)P(B_1) + \cdots + P(A|B_5)P(B_5))$
最后的贝叶斯公式用上面两条既可以做出。

最近看了一个比较有趣的例子，在这里给大家分享一下，随便使用一下，题目：
已知在一个公园中男的穿拖鞋的概率为 $\frac{1}{2}$ ，女的穿拖鞋的概率为 $\frac{2}{3}$ ,然后公园中男女人数比例为二比一，现这有一人穿拖鞋，求其为男为女的概率。
解答：我们使用 $w_1$ 代表男人， $w_2$ 代表女人，t为穿拖鞋。
我们可以列出如下式子：

P (t | w_{1}) = \frac{1}{2} 和 P (t | w_{2}) = \frac{2}{3}

$P(t|w_1) = \frac{1}{2}和P(t|w_2)= \frac{2}{3}$

P (w_{1}) = \frac{2}{3} 和 P (w_{2}) = \frac{1}{3}

$P(w_1) = \frac{2}{3} 和 P(w_2) = \frac{1}{3}$
我们要算的是

P (w_{1} | t) 和 P (w_{2} | t)

$P(w_1|t)和P(w_2|t)$ ，我们直接套用公式即可穿凉拖鞋的全概率为

P (t) = \frac{1}{2} * \frac{2}{3} + \frac{2}{3} * \frac{1}{3} = \frac{5}{9}

$P(t) = \frac{1}{2} * \frac{2}{3} + \frac{2}{3} * \frac{1}{3} = \frac{5}{9}$ ，那么是男性的概率为

P (w_{1} | t) = \frac{\frac{1}{2} * \frac{2}{3}}{\frac{5}{9}} = \frac{3}{5}

$P(w_1|t) = \frac{\frac{1}{2} * \frac{2}{3}}{\frac{5}{9}} = \frac{3}{5}$ ，女性为

P (w_{2} | t) = \frac{\frac{2}{3} * \frac{1}{3}}{\frac{5}{9}} = \frac{2}{5}

$P(w_2|t) = \frac{\frac{2}{3} * \frac{1}{3}}{\frac{5}{9}} = \frac{2}{5}$
这就是贝叶斯公式的一些应用了，当然啦，现实生活中先验概率（本题中的男女比例）还有全概率什么的这些都很难得到，这个时候就需要似然函数出手了（完全不记得前面有没有讲了。。。没有的话以后补上）。

两个学派

本来不想加这个的（因为会加重本博主的负担量！！！），但是最后想想还是了解以下比较好，当然，我不会说很详细就是了。
两个学派分别为频率学派和贝叶斯学派，贝叶斯这边自成一个学派还是很牛逼的（开玩笑，开玩笑）。
频率学派的看法：
“假定参数是某个/某些未知的定值，求这些参数如何取值，能够使得某些目标函数取极大/极小”
贝叶斯学派呢：
“假定参数本身是变化的，服从某个分布。求在这个分布约束下使得某个目标函数极大/极小。”
反正吧，管它啥学派呢，有用就行，但是还是要来一句：“两种学派并没有高下之分，只不过是认识自然的方式有所区别“，当然现在来说贝叶斯好像更好用一些。

贝叶斯公式 $P(A|B) = \frac{P(B|A)*P(A)}{P(B)}$

前面虽然给了一下简单的理解，但毕竟不是很正式不是么？嗯，现在正式一些。
给定某系统的若干样本x，计算该系统的参数，即

P （ θ | x ） = \frac{P (x | θ) P (θ)}{P (x)}

$P（\theta|x） = \frac{P(x|\theta)P(\theta)}{P(x)}$

P (θ) ： 没 有 数 据 的 支 持 下 ， θ 发 生 的 概 率 ， 也 叫 做 先 验 概 率 。

$P(\theta)：没有数据的支持下，\theta发生的概率，也叫做先验概率。$

P (θ | x) ： 在 数 据 x 的 支 持 下 ， θ 发 生 的 概 率 ， 也 叫 做 后 验 概 率 。

$P(\theta|x)：在数据x的支持下，\theta发生的概率，也叫做后验概率。$

P (x | θ) ： 给 定 某 参 数 θ 的 概 率 分 布 ， 也 叫 做 似 然 函 数 。

$P(x|\theta)：给定某参数\theta的概率分布，也叫做似然函数。$

各种分布

本来这里确实准备了不少分布要讲的，最后想想还是。。。挑几个详细讲一下吧，然后其他的就说一下名字吧。。。

1.两点分布(0-1分布)

X	1	0
P	p	1-p

$E(X) = 1 * p + 0 * q = p$

$D(X) = pq$

2.二项分布

这些都是耳熟能详的分布呢。
假设随机变量X服从参数n，p二项分布，设 $X_i$ 在第i次实验中事件A发生的次数，i = 1，2，3……，n则

X = \sum_{i = 1}^{n} X_{i}

$X = \sum_{i=1}^{n}{X_i}$
显然

X_{i}

$X_i$ 相互独立均服从参数为p的0-1分布，则

E (X) = \sum_{i = 1}^{n} E (X_{i}) = n p

$E(X) = \sum_{i=1}^{n}{E(X_i)} = np$

D (X) = \sum_{i = 1}^{n} D (X_{i}) = n p (1 - p)

$D(X) = \sum_{i = 1}^{n}{D(X_i) = np(1-p)}$

3.泊松分布

在讲泊松分布之前不得不讲一下一个泰勒展开式：

e^{x} = 1 + x + \frac{x^{2}}{2!} + \frac{x^{3}}{3!} + \dots + \frac{x^{k}}{k!} + R_{k}

$e^x = 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + \cdots + \frac{x^k}{k!} + R_k$
然后

1 = e^{- x} + x * e^{- x} + \frac{x^{2}}{2!} * e^{- x} + \dots + \frac{x^{k}}{k!} * e^{- x} + R_{n} * e^{- x}

$1 = e^{-x} + x * e^{-x} + \frac{x^2}{2!}*e^{-x} + \cdots + \frac{x^k}{k!} * e^{-x} + R_n * e^{-x}$

\frac{x^{k}}{k!} * e^{- x} \to \frac{λ^{k}}{k!} * e^{- λ}

$\frac{x^k}{k!} * e ^{-x} \to \frac{\lambda^k}{k!} * e ^{-\lambda}$
有木有觉得很像？反正我是觉得很像的了。
然后开始讲我们的泊松分布。
设

X

$X$ ~

π (λ)

$\pi(\lambda)$ ,且分布律为：

P = X = k = \frac{λ^{k}}{k!} * e^{- λ}, k = 0, 1, 2, 3, \dots, λ > 0

$P = {X = k} = \frac{\lambda^k}{k!} * e^{-\lambda},k = 0,1,2,3,\cdots,\lambda > 0$
则有

E (X) = λ e^{- λ} * e^{λ} = λ

$E(X) = \lambda e^{-\lambda} * e ^{\lambda} = \lambda$

D (X) = E (X^{2}) - [E (X)^{2}] = λ^{2} + λ - λ^{2} = λ

$D(X) = E(X^2) - [E(X)^2] = \lambda ^2 + \lambda - \lambda ^ 2 = \lambda$
即泊松分布的方差和期望都为

λ

$\lambda$

4.均匀分布

5.指数分布

6.正态分布

7.Beta分布

……

反正就是还有好多啦，就不一一讲了，需要的可以去搜索一下，就不要为难博主我了。

独立性

然后写到这里，博主翻了一下之前写的，我才发现我好像没有说明独立性是啥意思，用比较正式的解释就是
满足以下式子的事件A和事件B则被称为A、B相互独立。

P (A B) = P (A) P (B)

$P(AB) = P(A)P(B)$
忽然发现是不是和之前的条件概率那个

P (A | B) = \frac{P (A B)}{P (B)}

$P(A|B) = \frac{P(AB)}{P(B)}$ 差别挺大啊，这是啥意思呢？
简单点来讲就是A和B两个事件互不干扰，就比如丢硬币，你第一次丢了正面，然后问你第二次丢到正面还是反面，这概率显然还是

\frac{1}{2}

$\frac{1}{2}$ 没错了，显然你第一次丢硬币的结果并不会影响第二次丢硬币的结果，就称第一次丢硬币的事件和第二次丢硬币的事件相互独立，就是这个意思撒。

期望

呵呵，又发现一个没有讲的内容，我是不是应该重新排版？
离散型：

E (X) = \sum_{i} x_{i} p_{i}

$E(X) = \sum_i{x_ip_i}$
连续型

E (X) = \int_{- \infty}^{\infty} x f (x) d x

$E(X) = \int_{-\infty}^{\infty}{xf(x)dx}$
嗯，上面虽然看上去很高级，其实期望如果简单理解的话和平均值差不多。
一些性质：

E (X + Y) = E (X) + E (Y)

$E(X+Y) = E(X) + E(Y)$

E (k X) = k E (X)

$E(kX) = kE(X)$
同时如果X和Y互相独立

E (X Y) = E (X) E (Y)

$E(XY) = E(X)E(Y)$
但是反之不成立，若是

E (X Y) = E (X) + E (Y)

$E(XY) = E(X) + E(Y)$ 只能够说明X和Y不相关。
注意这里的不相关和不独立是不一样的，具体。。。好吧，为了解释它后面还得多讲一个知识。

方差

定义：

v a r (X) = E {[x - E (X)]^{2}} = E (X^{2}) - E (X)^{2}

$var(X) = E\{[x - E(X)]^2\} = E(X^2) - E(X)^2$
同时

v a r (X) > 0

$var(X)>0$ 所以

E {[X - E (X)^{2}]} \geq 0 ⟹ E (X^{2}) \geq E (X)^{2}

$E\{[X - E(X)^2]\}\geq 0 \implies E(X^2) \geq E(X)^2$ 当X为定值时等号成立。
性质：

V a r (c) = 0 (c 为 常 数)

$Var(c) = 0(c为常数)$

V a r (X + c) = V a r (X)

$Var(X + c) = Var(X)$

V a r (k X) = k^{2} V a r (X)

$Var(kX) = k^2Var(X)$
若X和Y相互独立

V a r (X + Y) = V a r (X) + V a r (Y)

$Var(X + Y) = Var(X) + Var(Y)$
此外，方差的开方就是标准差。
然后为了解释不相关和不独立的却别还得讲解一个协方差的概念

协方差

协方差是啥呢？我们看一下定义：

C o v (X, Y) = E {[X - E (X)] * [Y - E (Y)]}

$Cov(X,Y) = E\{[X - E(X)]*[Y - E(Y)]\}$
有啥性质呢？我们看看
性质：

C o v (X, Y) = C o v (Y, X)

$Cov(X,Y) = Cov(Y,X)$

C o v (a X + b, c Y + d) = a b C o v (X, Y)

$Cov(aX + b , cY + d) = abCov(X,Y)$

C o v (X_{1} + X_{2}, Y) = C o v (X_{1}, Y) + C o v (X_{2}, Y)

$Cov(X_1 + X_2,Y) = Cov(X_1,Y) + Cov(X_2,Y)$

C o v (X, Y) = E (X Y) - E (X) E (Y)

$Cov(X,Y) = E(XY) - E(X)E(Y)$
然后最后一条要不要讲一下呢？最后一条其实就是把定义的期望里面的展开就好了。
我们已知X,Y独立的时候

E (X Y) = E (X) E (Y)

$E(XY) = E(X)E(Y)$
而

C o v (X, Y) = E (X Y) - E (X) E (Y)

$Cov(X,Y) = E(XY) - E(X)E(Y)$
所以我们可以知道当X,Y独立的时候

C o v (X, Y) = 0

$Cov(X,Y) = 0$ ，但是呢，X,Y独立这个条件实在太强了，于是我们提了个相对弱一些的条件，我们定义：若

C o v (X, Y) = 0

$Cov(X,Y) = 0$ 则称X,Y不相关。
好了，到此已经解决了独立性和不相关的问题，不过就此结束似乎不是很好，想想既然讲了协方差就把协方差相关的一些讲完吧。

协方差的意义

说了这么多，协方差有什意义呢？
不知道大家在看到Cov这一个缩写的时候想到了什么，但是我第一瞬间就想到了高中时候相关系数那个式子的缩写就是Cov，然后还有Python中计算相关系数的函数Cov().
没错的，就是相关系数的意思，我们来看看更为正式的解释：
协方差是两个随机变量具有相同方向变化趋势的度量；

若 C o v (X, Y) > 0, 它 们 的 变 化 趋 势 相 同

$若Cov(X,Y) > 0,它们的变化趋势相同$

若 C o v (X, Y) < 0, 它 们 的 变 化 趋 势 相 反

$若Cov(X,Y) < 0 ,它们的变化趋势相反$

若 C o v (X, Y) = 0, 称 X 和 Y 不 相 关

$若Cov(X,Y) = 0,称X和Y不相关$

协方差的上界

然后协方差是否有上界呢？估计一开始学习的人都不会考虑这个问题，我一开始学习也不会，就好像我们为什么不考虑方差是否有上界的问题（hh这还用考虑嘛？）。
若 $Var(X) = \sigma_1^2 和Var(Y) = \sigma_2^2$
则 $|Cov(X,Y) | \leq \sigma_1 \sigma_2$
当X与Y之间有线性关系时，等号成立。
然后。。。额，我们还是证明一下吧
证明：
去任意实数t和构造随机变量Z，

Z = (X - E (Y)) * t + (Y - E (Y))

$Z = (X - E(Y))*t + (Y - E(Y))$
从而

E (Z^{2}) = σ_{1}^{2} t^{2} + 2 C o v (X, Y) t + σ_{2}^{2}

$E(Z^2) = \sigma_1^2t^2 + 2Cov(X,Y)t + \sigma_2^2$

E (Z^{2}) \geq 0

$E(Z^2) \geq 0$

⟹ σ_{1}^{2} t^{2} + 2 C o v (X, Y) t + σ_{2}^{2} \geq 0

$\implies \sigma_1^2t^2 + 2Cov(X,Y)t + \sigma_2^2 \geq 0$

Δ = 4 C o v (X, Y)^{2} - 4 σ_{1}^{2} σ_{1}^{2} \leq 0

$\Delta = 4Cov(X,Y)^2 - 4\sigma_1^2\sigma_1^2 \leq 0$

⟹ | C o v (X, Y) | \leq σ_{1} σ_{2}

$\implies |Cov(X,Y)| \leq \sigma_1 \sigma_2$
然后我们在证明了这个性质之后我们再来反过来看看独立性和不相关性的内容，发现我们有了新的解释：
若X、Y不相关，说明X、Y之间没有线性关系（不过还有其他关系的可能），不能保证X、Y相互独立，但是对于二维正态随机变量来说，X和Y的不相关性即代表着其之间的相互独立

Pearson相关系数

好了，到这里我又要补充（推翻）之前说的东西了
定义：

ρ_{x y} = \frac{C o v (X, Y)}{\sqrt{V a r (X) V a r (y)}}

$\rho_{xy} = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(y)}}$
在这里我们结合上面的证明可以知道

| ρ | \leq 1

$|\rho| \leq 1$ 这个才是真正的相关系数，我们可以看到当X、Y有线性关系的时候等号成立，然后怎么说呢，相关系数就是在标准尺度下的协方差。

终

之前写博客都花了好长的时间，比如第一篇前前后后花了一两天（真的是呕心沥血了！(っ °Д °;)っ），然后第二篇又花了差不多一天，然后这次吸取了教训，虽然有些地方讲的不是非常详细了，但是好歹减轻了博主工作量嘛，这一次花了八九个小时吧TAT，还是很长啊！！！！写了博客才发现要敲一条公式上去或者说敲一个公式的证明上去都能够给人一种爆炸的感觉，有木有！！！
好吧，这次就这样子了，如果有什么疑惑可以在下面的评论区进行询问哦~~~

Machine Learning 笔记二

写在开头

概率公式

两个学派

贝叶斯公式 $P(A|B) = \frac{P(B|A)*P(A)}{P(B)}$

各种分布

1.两点分布(0-1分布)

2.二项分布

3.泊松分布

4.均匀分布

5.指数分布

6.正态分布

7.Beta分布

……

反正就是还有好多啦，就不一一讲了，需要的可以去搜索一下，就不要为难博主我了。

独立性

期望

方差

协方差

协方差的意义

协方差的上界

Pearson相关系数

终

猜你喜欢

Machine Learning 笔记二

写在开头

概率公式

两个学派

贝叶斯公式 P(A|B)=P(B|A)∗P(A)P(B) P ( A | B ) = P ( B | A ) ∗ P ( A ) P ( B ) P(A|B) = \frac{P(B|A)*P(A)}{P(B)}

各种分布

1.两点分布(0-1分布)

2.二项分布

3.泊松分布

4.均匀分布

5.指数分布

6.正态分布

7.Beta分布

……

反正就是还有好多啦，就不一一讲了，需要的可以去搜索一下，就不要为难博主我了。

独立性

期望

方差

协方差

协方差的意义

协方差的上界

Pearson相关系数

终

猜你喜欢

贝叶斯公式 $P(A|B) = \frac{P(B|A)*P(A)}{P(B)}$