机器学习常用的概率公式

由于经常要用到一些概率统计的公式,为了巩固下这方面的知识索性在这里简单复习下。

关于马尔科夫不等式,形如P[\mu(X)\geq c]\leq \frac{E[u(X))]]}{c},其中\mu表示随机变量X的非负函数,证明也不是很困难,E(\mu(x)))=\int^{+\infty}_{-\infty}u(x)p(x)dx=\int^{+\infty}_{c}u(x)p(x)dx+\int^{c}_{-\infty}u(x)p(x)dx \geq \int^{+\infty}_{c}u(x)p(x)dx\geq c\int^{+\infty}_{c}p(x)dx,此处P[u(X)\geq c] = \int^{+\infty}_{c} p(x)dx由此可得P[u(X)\geq c]\leq \frac{E[u(X))]]}{c}

接着,通过设定特殊的\mu函数和c,我们可以直接得到切比雪夫不等式:

u(X)=(X-\mu)^2,c=k^2\sigma^2,代入马尔可夫不等式,直接得到P(\left |X-\mu\right |\geq k\sigma)\leq \frac{1}{k^2}(切比雪芙不等式),就工程应用来看,切比雪夫不等式在获得模型评估上界的时候比较有用。

最后是詹生不等式,也是比较通用的定理:

\phi(E(X))\leq E(\phi(X)),一般通过这个不等式可以将问题进行转换。这个公式的证明可以使用泰勒公式通关,展开到二阶泰勒公式就能得到,所以\phi函数的前提必须是凸的。

好吧,又扯到凸函数了,之前在考试的时候想破脑袋要证明一个多元参数的矩阵函数为凸函数,导致现在还有阴影,其实简单来说凸函数就是满足\phi(\gamma x+(1-\gamma) x)\leq \gamma \phi(x) +(1-\gamma)\phi(x),当然反过来称之为凹。这里得注意了,不同的教材有不同的凹凸函数的定义,而且貌似目前并没有国际的统一标准定义,先就这样吧,以后需要研究凸优化的时候再一个个列出来。

常用到的公式目前先写这几个,下次继续水一点。

猜你喜欢

转载自blog.csdn.net/xiaomengqiuxing/article/details/82829629