机器学习的数学基础(贰)

版权声明:wang https://blog.csdn.net/m0_37846020/article/details/82765135

概率与统计(Probability and Statistics)

1 概率

1.1 条件概率(Conditional Probability)

P ( A B ) = P ( A B ) P ( B ) P(A|B)= \frac {P(A\cap B )}{P(B)}

A在另外一个事件B已经发生条件下的发生概率。
例题:老王有两个孩子,亲生的!
A:他告诉有一个是男孩子,求另一个是女孩子的概率。
B:我看到了一个是男孩,求另一个是女孩的概率。
答案:A是2/3,B是1/2。

1.2 全概率(Total Probability)

全概率

P ( B ) = P ( A 1 B ) + + P ( A n B ) = P ( B A 1 ) P ( A 1 ) + P ( B A n ) P ( A n ) P(B)=P(A_1 \cap B)+…+P(A_n \cap B)=P(B|A_1)P(A_1)+…P(B|A_n)P(A_n)

1.3 贝叶斯法则(Bayes Rule)

P ( A i B ) = P ( A i ) P ( B A i ) P ( B ) = P ( A i ) P ( B A i ) P ( B A 1 ) P ( A 1 ) + P ( B A n ) P ( A n ) P(A_i|B)= \frac {P(A_i)P(B|A_i)}{P(B)}=\frac {P(A_i)P(B|A_i)}{P(B|A_1)P(A_1)+…P(B|A_n)P(A_n)}

推导 P ( A B ) = P ( A B ) P ( B ) = P ( B A ) P ( A ) P(A\cap B )=P(A|B)P(B)=P(B|A)P(A)

P ( H D ) = P ( H ) P ( D H ) P ( D ) P(H|D)= \frac {P(H)P(D|H)}{P(D)}
等式右边 P ( H ) P(H) 为先验概率, P ( D H ) P(D|H) 为似然概率, P ( D ) P(D) 为证据。等式左边 P ( H D ) P(H|D) 为后验概率。

1.4 独立(Independence)

如果A和B是独立的,那么满足:
P ( A B ) = P ( A ) P ( B ) P(A \cap B)=P(A)P(B)
如果P(B)>0,则同时满足:
P ( A B ) = P ( A ) P(A|B)=P(A)
如果A,B独立,如果有事件C,则满足:
P ( A B C ) = P ( A C ) P ( B C ) P(A \cap B|C)=P(A|C)P(B|C)
如果A,B独立,且 P ( B C ) > P(B \cap C)> 0,则满足:
P ( A B C ) = P ( A C ) P(A|B \cap C)=P(A|C)

2 统计

2.1 二项式概率(Binomial Probabilities)

例如:一个硬币投掷N次,求正面出现k次的概率。
p X ( k ) = P ( X = k ) = C n k p k ( 1 p ) n k , k = 0 , 1 , 2 n p_X(k)=P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,2…n

2.2 期望(Expectation)

随机变量的平均值。
E [ X ] = x p X ( x ) E[X]=\sum xp_X(x)
复合函数求期望:
E [ g ( x ) ] = g ( x ) p X ( x ) E[g(x)]=\sum g(x)p_X(x)

2.3 方差(Variance)

随机变量的波动性。
v a r ( X ) = E [ ( X E [ x ] ) 2 ] var(X)=E[(X-E[x])^2]

2.4 协方差(Covariance)

C o v ( X , Y ) = E [ ( X E [ X ] ) ( Y E ( Y ) ) ] Cov(X,Y)=E[(X-E[X])(Y-E(Y))]
如果X,Y线性相关,则满足:
C o v ( X , Y ) = E [ X Y ] E [ X ] E [ Y ] Cov(X,Y)=E[XY]-E[X]E[Y]

2.5 概率分布

2.5.1 伯努利分布(Bernoulli Distribution)

代表一次 YES 或者 NO的实验。
f ( k ; p ) = p k ( 1 p ) 1 k , k 0 , 1 f(k;p)=p^k(1-p)^{1-k},k \in {0,1}
E ( x ) = p E(x)=p , V a r [ x ] = p q Var[x]=pq .

2.5.2 多项式分布(Multinomial Distribution)

例子:投掷骰子1000次,其中100次1点,200次2点,300次3点,100次4点,100次5点,200次6点的概率。
f ( x 1 , , x n ; n , p 1 , , p k ) = P r ( X 1 = x 1 a n d . . . a n d X k = x k ) f(x_1,…,x_n;n,p_1,…,p_k)=P_r(X_1=x_1 and ... and X_k=x_k)
. . . = n ! x 1 ! . . . x n ! p 1 x 1 × . . . × p k x k = C n x 1 × C n x 1 x 2 × . . . × C n x 1 . . . x n 1 x n = n ! x 1 ! . . . x n ! p 1 x 1 × . . . × p k x k ...=\frac {n!}{x_1!...x_n!}p_1^{x_1}\times...\times p_k^{x_k}=C_n^{x_1}\times C_{n-x_1}^{x_2}\times ...\times C_{n-x_1-...x_n-1}^{x_n}=\frac {n!}{x_1!...x_n!}p_1^{x_1}\times...\times p_k^{x_k}

2.5.3 泊松分布(Poisson Distribution)

泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。

f ( k ; λ ) = P r ( X = k ) = λ k e λ k ! f(k;\lambda)=Pr(X=k)=\frac{\lambda^ke^{-\lambda}}{k!}
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。

柏松分布

2.5.4 高斯(正态)分布(Gaussian (Normal) Distribution)

常见的一种假设分布。
f ( x ; μ , σ 2 ) = 1 2 π σ 2 e ( x μ ) 2 2 σ 2 f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

μ σ 2 \mu是期望,\sigma^2是方差
高斯分布

2.5.5 伽马分布(Gamma Distribution)

伽马函数:
Γ ( n ) = ( n 1 ) ! \Gamma(n)=(n-1)!
Γ ( z ) = 0 x z 1 e x d x \Gamma(z)=\int_{0}^{\infin} x^{z-1}e^{-x}dx

推导 Γ ( z + 1 ) = 0 x z e x d x = [ x z e x ] 0 + 0 z x z 1 e x d x = z 0 x z 1 e x d x = z Γ ( z ) \Gamma(z+1)=\int_{0}^{\infin} x^{z}e^{-x}dx=[-x^ze^{-x}]_0^{\infin}+\int_{0}^{\infin}zx^{z-1}e^{-x}dx=z\int_{0}^{\infin} x^{z-1}e^{-x}dx=z\Gamma(z)

伽玛分布(Gamma Distribution)是统计学的一种连续概率函数,是概率统计中一种非常重要的分布。“指数分布”和“ χ 2 \chi^2 分布”都是伽马分布的特例。 Gamma分布中的参数α称为形状参数(shape parameter),β称为尺度参数(scale parameter)。
X Γ ( α , β ) G a m m a ( α , β ) X\sim\Gamma(\alpha,\beta)\equiv Gamma(\alpha,\beta)
f ( x ; α , β ) = β α x α 1 e β x Γ ( α ) , x > 0 , α > 0 , β > 0 f(x;\alpha,\beta)=\frac{\beta^\alpha x^{\alpha-1}e^{-\beta x}}{\Gamma(\alpha)},x>0,\alpha>0,\beta>0

Gamma

2.5.6 贝塔分布(Gamma Distribution)

贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称B分布,是指一组定义在(0,1) 区间的连续概率分布。
f ( x ; α , β ) = c o n s t a n t × x α 1 ( 1 x ) β 1 = x α 1 ( 1 x ) β 1 0 1 u α 1 ( 1 u ) β 1 d u f(x;\alpha,\beta)=constant\times x^{\alpha-1}(1-x)^{\beta-1}=\frac{x^{\alpha-1}(1-x)^{\beta -1}}{\int_0^1u^{\alpha-1}(1-u)^{\beta-1}du}
. . . = Γ ( α + β ) Γ ( α ) Γ ( β ) x α 1 ( 1 x ) β 1 = 1 B ( α , β ) x α 1 ( 1 x ) β 1 ...=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta -1}=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta -1}

beta

3 贝叶斯定理的例子(补充)

老王的闺女在沙漠里面举行了婚礼,沙漠里一年只有5天下雨,可惜的是天气预报说结婚那天会下雨,天气预报说会下雨,有90%的概率真的下雨,那么婚礼那天真下雨的概率是多少?

解析:设事件A为天气预报说下雨,事件B为真的下雨。
这道题我们所求为 P ( B A ) P(B|A) ,罗列一下我们已经知道的条件。 P ( A B ) = 0.9 , P ( A n o t B ) = 0.1 , P ( B ) = 5 / 365 , P ( n o t B ) = 360 / 365 P(A|B)=0.9,P(A|not B)=0.1,P(B)=5/365,P(not B)=360/365
所以 P ( B A ) = P ( A B ) × P ( B ) / P ( A ) , P ( A ) = P ( A B ) P ( B ) + P ( A n o t B ) P ( n o t B ) = 0.111 P(B|A)=P(A|B)\times P(B)/P(A),P(A)=P(A|B)⋅P(B)+P(A|notB)⋅P(notB)=0.111
求解结束。

4 辛普森悖论(Simpson’s paradox)

“校长,不好了,有很多男生在校门口抗议,他们说今年研究所女生录取率42%是男生21%的两倍,我们学校遴选学生有性别歧视”,校长满脸疑惑的问秘书:“我不是特别交代,今年要尽量提升男生录取率以免落人口实吗?”
秘书赶紧回答说:“确实有交代下去,我刚刚也查过,的确是有注意到,今年商学院录取率是男性75%,女性只有49%;而法学院录取率是男性10%,女性为5%。二个学院都是男生录取率比较高,校长这是我作的调查报告。”
辛普森悖论
“秘书,你知道为什么个别录取率男皆大于女,但是总体录取率男却远小于女吗?”
此例这就是统计上著名的辛普森悖论(Simpson’s Paradox)。
{ b a > f e d c > h g ̸ b + d a + c > f + h e + g \left\{ \begin{array}{l} \frac ba>\frac fe\\ \frac dc>\frac hg \end{array} \right.\not\Rightarrow\frac{b+d}{a+c}>\frac{f+h}{e+g}

为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。

猜你喜欢

转载自blog.csdn.net/m0_37846020/article/details/82765135