【LinearAlgebra】12.1 Mean, Variance, and Probability

在这里插入图片描述

文章目录

Chapter 12 - Linear Algebra in Probability & Statistics
Ref

Chapter 12 - Linear Algebra in Probability & Statistics

12.1 Mean, Variance, and Probability

我们从本章的三个基本词汇开始：均值（mean）、方差（variance）和概率（probability）。在写公式之前，让我先粗略地解释一下它们的含义：

平均值指平均值或期望值
方差 $\sigma^2$ 衡量与平均值 $m$ 的平均平方距离
$n$ 种不同结果的概率都是正数 $p_1, \cdots, p_n$ 相加为 $1$ 。

当然，平均数很容易理解。我们从这里开始。但是现在我们有两种不同的情况，你们必须弄清楚。一方面，我们可以从完成的试验中得到结果（样本值）。另一方面，我们可能从未来的试验中得到预期的结果（期望值）。让我举几个例子：

样本值 随机抽取 $5$ 名新生，年龄分别为 $18 、 17 、 18 、 19 、 17$
样本均值 $\frac{1}{5}(18 + 17 + 18 + 19 + 17) = 17.8$
概率大一新生的年龄分别是 $17$ 岁（ $20\%$ ）、 $18$ 岁（ $50\%$ ）、 $19$ 岁（ $30\%$ ）。
随机选择一个大一新生的预期年龄 $\text{E}[x] = (0.2) 17 + (0.5) 18 + (0.3) 19 = 18.1$

$17.8$ 和 $18.1$ 都是正确的平均值。样本均值 $N$ 个采样点 $x_1, \cdots, x_N$ 从一个完成的试验开始。它们的平均值是 $N$ 个观测样本的平均值：

样本均值 $\mu = \frac{1}{N} (x_1 + x_2 + \cdots + x_N) \tag{1}$

$x$ 的期望值开始于年龄 $x_1, \cdots, x_n$ 的概率 $p_1, \cdots, x_n$ ：

期望值 $\text{E}[x] = p_1 x_1 + p_2 x_2 + \cdots + p_n x_n \tag{2}$

这就是 $\cdot x$ 。注意 $\text{E}[x]$ 告诉了我们期望什么， $m = μ$ 告诉我们得到什么。

通过取很多样本（比如说一个很大的 $N$ ），样本结果将接近概率。“大数定律（Law of Large Numbers）”认为，随着样本量 $N$ 的增加，样本均值以 $1$ 的概率收敛于其期望值 $\text{E}[x]$ 。一枚均匀硬币出现背面的概率为 $p_0=\frac{1}{2}$ ，出现正面的概率为 $p_1=\frac{1}{2}$ 。然后 $\text{E} [x] = (\frac{1}{2}) 0 + (\frac{1}{2}) 1$ 。 $N$ 次抛硬币中正面出现的比例是样本均值，接近期望 $\text{E}[x] =\frac{1}{2}$ 。

这并不意味着如果我们看到的反面多于正面，那么下一个样本很可能是正面。几率仍然是 $50\%$ 。前 $100$ 次或 $1000$ 次投掷确实会影响样本均值。但是 $1000$ 次抛硬币不会影响它的极限——因为你要除以 $\rightarrow \infty$ 。

Variance (around athe mean) 方差（接近均值）

方差 $\sigma^2$ 表示到期望均值 $\text{E}[x]$ 的期望距离（平方）。样本方差 $S^2$ 表示离样本均值的实际距离（平方）。平方根是标准差 $σ$ 或 $S$ 。

样本方差 $S^2 = \frac{1}{N-1} [(x_1-m)^2 + \cdots + (x_N-m)^2] \tag{3}$

样本年龄 $x = 18, 17, 18, 19, 17$ 有均值 $m = 17.8$ 。样本有方差 $0.7$ ：

$S^2 = \frac{1}{5-1} [(.2)^2 + (-.8)^2 + (.2)^2 + (1.2)^2 + (-.8)^2] = \frac{1}{4}(2.8) = 0.7$

当我们计算平方时，负号消失了。请注意！统计学家除以 $N - 1 = 4$ （而不是 $N = 5$ ），因此 $S^2$ 是 $\sigma^2$ 的无偏估计。样本均值中已经包含了一个自由度。

一个重要的恒等式来自于将每个 $x-m)^2$ 分成 $x^2- 2mx + m^2$ ：

$\begin{aligned} \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) + 2m(\text{sum of } x_i) + (\text{sum of } m^2) \\ &= (\text{sum of } x_i^2) + 2m(Nm) + N m^2 \\ \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) - N m^2 \end{aligned} \tag{4}$

这是一个通过添加 $x_1^2 + \cdots + x_N^2$ 来找寻 $(x_1-m)^2+\cdots+(x_N-m)$ 的等价方式。

现在从概率 $p_i$ （绝不会是负值）开始，而不再是样本。我们找到期望值而不是样本值。方差 $\sigma^2$ 是统计学中的关键数字。

方差 $\sigma^2 = \text{E} [(x-m)^2] = p_1 (x_1-m)^2 + \cdots + p_n (x_n-m)^2 \tag{5}$

我们对期望值 $\text{E}[x]$ 的距离进行平方。我们没有样本，只期望。我们知道概率，但我们不知道实验结果。

Continuous Probability Distributions 连续概率分布

到目前为止，我们有 $n$ 种可能的结果 $x_1,\cdots,x_n$ 。如果样本年龄为 $17 、 18 、 19$ 岁时，只有 $n = 3$ 。如果我们用天而不是年来衡量年龄，那么就会有一千种可能的年龄（太多了）。最好允许 $17$ 到 $20$ 岁之间的每个数字——一个可能年龄的连续体。那么年龄 $x_1, x_2, x_3$ 岁的概率 $p_1, p_2, p_3$ 必须移动到概率分布（probability distribution） $p (x)$ 在 $\le x \le 20$ 的连续范围内。

解释概率分布的最好方法是举两个例子。它们是均匀分布（uniform distribution）和正态分布（normal distribution）。均匀分布很容易。正态分布非常重要。

均匀分布

假设年龄均匀分布在 $17.0$ 到 $20.0$ 之间。这些数字之间的所有年龄都是“同等可能的”。当然，任何一个确切的年龄都没有机会。你得到 $x = 17.1$ 或 $\sqrt{2}$ 的概率为零。你可以真实地提供（假设我们的均匀分布）一个新生年龄小于 $x$ 的概率 $F (x)$ ：

年龄小于 $x = 17$ 的概率为 $F (17) = 0$ ， $x\le 17$ 永远不会发生
年龄小于 $x = 20$ 的概率为 $F (20) = 1$ ， $x\le 20$ 会发生
年龄小于 $x$ 的概率为 $F(x)=\frac{1}{3}(x-17)$ ， $F$ 从 $0$ 到 $1$

公式 $\frac{1}{3}(x-17)$ 给出在 $x = 17$ 处 $F = 0$ ；那么 $x < 17$ 就不会发生。它给出在 $x = 20$ 处 $F (x) = 1$ ；那么 $\le 20$ 是肯定的。在 $17$ 和 $20$ 之间，这个均匀模型的累积分布（cumulative distribution） $F (x)$ 的图呈线性增长。

画出 $F (x)$ 的图和它的导数 $p (x) =$ 概率密度函数（probability density function）。

在这里插入图片描述

你可以说 $\text{d}x$ 是样本落在 $x$ 和 $x+\text{d}x$ 之间的概率。这是极其真实的（infinitesimally true）： $\text{d}x$ 等于 $F(x+\text{d}x) - F(x)$ 。以下是完整描述：

$\text{integral of } p \quad \text{ Probability of} a \le x \le b = \int_{a}^{b} p(x) \text{d}x = F(b) - F(a) \tag{6}$

$F (b)$ 是 $\le b$ 的概率。我减去 $F (a)$ 使 $\ge a$ 保持不变。这样有 $\le x \le b$ 。

Mean and Variance of $p (x)$ $p (x)$ 的均值和方差

一个概率分布的均值 $m$ 和方差 $\sigma^2$ 是多少？之前我们添加了 $p_i x_i$ 来获得均值（期望均值）。对于一个连续分布我们对 $x p (x)$ 积分：

均值 $\text{E}[x] = \int x p(x) \text{d} x = \int_{x=17}^{20} (x) (\frac{1}{3}) \text{d}x = 18.5$

对于均匀分布，均值 $m$ 介于 $17$ 和 $20$ 之间。那么随机值 $x$ 低于中点 $m = 18.5$ 的概率为 $\frac{1}{2}$ 。

在 MATLAB 中， $\text{rand}(1)$ 在 $0$ 和 $1$ 之间均匀地选择一个随机数。期望均值是 $m=\frac{1}{2}$ 。 $0$ 到 $x$ 的区间有 $F (x) = x$ 的概率，低于均值 $m$ 的区间有 $=\frac{1}{2}$ 的概率。

方差是到均值距离的平均平方。当有 $N$ 个结果时， $\sigma^2$ 是 $p_i (x_i - m)^2$ 的和。对于连续随机变量 $x$ ，求和变成积分。

方差 $\sigma^2 = \text{E} [(x-m)^2] = \int p(x) (x-m)^2 \text{d}x \tag{7}$

当年龄在 $\le x \le 20$ 之间均匀分布时，积分可以转移至 $\le x \le 3$ ：

$\sigma^2 = \int_{17}^{20} \frac{1}{3} (x - 18.5)^2 \text{d}x = \int_0^3 \frac{1}{3}(x-1.5)^2 \text{d}x = \frac{1}{9} (x-1.5)^3 |_{x=0}^{x=3} = \frac{2}{9} (1.5)^3 = \frac{3}{4}$

这是一个典型的例子，这是均匀 $p (x), 0$ 到 $a$ 的完整图像。

$\begin{aligned} \text{Uniform distribution for } (0 \le x \le a) \\ \text{ Density } p(x) = \frac{1}{a} \\ \text{ Cumulative } F(x) = \frac{x}{a} \\ \text{ Mean } m = \frac{a}{2} \text{ halfway} \\ \text{ Variance } \sigma^2 = \int_{0}^{a} \frac{1}{a} (x-\frac{a}{2})^2 \text{d}x = \frac{a^2}{12} \end{aligned} \tag{8}$

均值是 $a$ 的倍数，方差是 $a^2$ 的倍数。对于 $a = 3$ ，有 $\sigma^2=\frac{9}{12}=\frac{3}{4}$ 。对于一个在 $0$ 和 $1$ 之间的随机数（均值 $\frac{1}{2}$ ），方差是 $\sigma^2 = \frac{1}{12}$ 。

Normal Distribution: Bell-shaped Curve

N Coin Flips and $\rightarrow \infty$

Monte Carlo Estimation Methods

Review: Three Formulas for the Mean and the Variance

12.2 Covariance Matrices and Joint Probabilities

12.3 Multivariate Gaussian and Weighted Least Squares

$\begin{aligned} \end{aligned}$