机器学习（概率论）

概率论

事件互斥

定义

事件A与事件B不可能同时发生，则A、B为互斥事件

互斥事件的并集

$P\big( A \cup B \big) = P\big(A \big) +P\big(B\big)$

事件独立

定义

A事件的发生对B事件的发生没有影响

独立事件的交集运算

$P\big( A \cap B\big)=p\big(A\big)*\big(B\big)$

条件概率

定义

X事件发生的情况下Y事件发生的概率

条件概率计算

$P\big( Y|X\big)=P\big( XY\big)/P\big( X\big)$

联合概率

定义

X和Y同时发生的概率 = X先发生的概率乘以X发生的情况下Y发生的概率

表达式

$P\big( XY\big)=P\big(X\big)*P\big(Y|X\big)$

贝叶斯公式

定义

$P\big(XY\big)=P\big(X|Y\big)*P\big(Y\big)=P\big(Y|X\big)*P\big(X\big)$

变形

$P\big(Y|X\big)=P\big(X|Y\big)*P\big(Y\big)/P\big(X\big)$

细节解释

$P\big(Y|X\big)$ 后验概率
$P\big(Y\big)$ 先验概率

生成模型与判别模型

目标

$P\big(Y|X\big)$

生成模型

$P\big(Y|X\big)=P\big(X|Y\big)*P\big(Y\big)/P\big(X\big)$

判别模型

$P\big( Y|X\big)$

离散随机变量

伯努利分布： $P\big(Y=1\big)=p=1-P\big(Y=0\big)=1-q$

多项分布：多次伯努利

期望

定义

$E[X]=x_1p_1+x_2p_2+...x_np_n$

性质

$E[X+Y]=E[X]+E[Y],E[aX]=aE[X]$
如果X,Y相互独立，那么 $E[XY]=E[X]*E[Y]$

方差
假设 $\mu$ 为期望， $x_1,x_2,...,x_n$ 对应的概率为 $p_1,p_2,...p_n$ ,那么 $X$ 的方差(Variance)为：

$Var[X]=\big(x_1-\mu\big)^2p_1+...+\big(x_n-\mu\big)^2p_n$

$Var[X]=E[\big( X-\mu\big)^2]$

$Var[X]=E[X^2]-E[X]^2$

如果X和Y独立，则 $Var[X+Y]=Var[X]+Var[Y]$

ROC曲线（一般应用于二分类）

准确率的缺陷

如果数据Label不平衡，则最好不使用准确率
precision=TP/(TP+FP)

召回率

recall=TPR=TP/(TP+FN)
recall=FPR=FP/(FP+TN)

AOC特指描述的曲线，AUC特指曲线与坐标轴构成的面积

AOC一般以FPR为横坐标，TPR为纵坐标

连续随机变量

条件： $f\big(X\big)\geq0,X\subseteq\Omega,\int f\big(x\big)d_x=1$

概率： $P\big(X\subset S\big)=\int_sf\big(x\big)d_x$

期望： $E[X]=\int Xf\big(X\big)d_x$

方差： $Var[X]=\int\big(X-\mu\big)^2f\big(x\big)d_x$

*正态分布

定义
$X~N\big(\mu,\delta^2\big),f\big(X\big)=\frac{1}{\sqrt{2\pi\delta^2}}exp\big(-\frac{1}{2\delta^2}\big(x-\mu\big)^2\big)$

参数
$E\big(X\big)=\mu$
$Var[X]=\delta^2$

协方差和相关系数

$cov\big(X,Y\big)=E[\big(X-E\big(X\big)\big)\big(Y-E[Y]\big)]=E[XY]-E[X]E[Y]$

$cov\big(X,Y\big)=\frac{cov\big(X,Y\big)}{\sqrt{Var\big(X\big)Var\big(Y\big)}}$

朴素贝叶斯(假设各因子间相互独立)

$P\big(Y|X_1,X_2,...,X_n\big)=\frac{P\big(X_1,X_2,...,X_P|Y\big)P\big(Y\big)}{P\big(X_1,X_2,...,X_P\big)}=\frac{P\big(X_1|Y\big)P\big(X_2|Y\big)...P\big(X_P|Y\big)P\big(Y\big)}{P\big(X_1,X_2,....,X_P\big)}$

定义
$H\big(X\big)=-\sum_iP\big(X_i\big)logP\big(X_i\big)$
含义
代表不确定性

KL DIVERGENCE

定义

给定两个概率分布p,q，定义KL Divergence为:

$KL\big(p||q\big)=\sum\limits_{i}p_ilog\frac{p_i}{q_i}$

互信息

定义

$I\big(X,Y\big)=KL\big(P\big(X,Y\big)||P\big(X\big)P\big(Y\big)\big)$

性质

$I\big(X,Y\big)\geq0$ 当且仅当 $P\big(X,Y\big)=P\big(X\big)P\big(Y\big)$ 时， $I\big(X,Y\big)=0$

$I\big(X,Y\big)=H\big(X\big)-H\big(X|Y\big)$

机器学习（概率论）

概率论

猜你喜欢