【LinearAlgebra】12.2 Covariance Matrices and Joint Probabilites

在这里插入图片描述

文章目录

Chapter 12 - Linear Algebra in Probability & Statistics
- 12.2 Covariance Matrices and Joint Probabilites
Ref

Chapter 12 - Linear Algebra in Probability & Statistics

12.2 Covariance Matrices and Joint Probabilites

当我们同时进行 $M$ 个不同实验时，线性代数就出现了。我们可以测量年龄、身高和体重（ $M = 3$ 测量 $N$ 个人）。每个实验都有自己的均值。因此我们有一个向量 $m=(m_1, m_2, m_3)$ 包含 $M$ 个均值。它们可以是年龄、身高和体重的样本均值。或者 $m_1, m_2, m_3$ 可以是年龄、身高、体重基于已知概率的期望值。

当我们考虑方差时就涉及到了矩阵。每个实验都将有一个样本方差 $S^2_i$ 或者期望的 $\sigma^2_i = \text{E} [(x_i - m_i)^2]$ ，基于其与均值的平方距离。这 $M$ 个数 $\sigma_1^2, \cdots, \sigma_M^2$ 会在矩阵的主对角线上。到目前为止，我们还没有把这 $M$ 个平行实验联系起来。他们测量 $M$ 个不同的随机变量，但实验不一定是独立的！

如果我们测量儿童的年龄、身高和体重（ $a, h, w$ ），结果将是密切相关的。大一点的孩子通常更高更重。假设均值 $m_a, m_h, m_w$ 是已知的。那么 $\sigma_a^2, \sigma_h^2, \sigma_w^2$ 分别是年龄、身高、体重的方差。新的数字是像 $\sigma_{ah}$ 的协方差，它是年龄乘以身高。

协方差 $\sigma_{ah} = \text{E[(age - mean age)(height - mean height)]} \tag{1}$

这个定义需要仔细看一下。要计算 $\sigma_{ah}$ ，仅知道每个年龄的概率和每个身高的概率是不够的。我们必须知道每一对（年龄和身高）的联合概率。这是因为年龄是和身高有关的。

$\begin{aligned} p_{ah} &= \text{probability that a random child has age = } a \text{ and height} = h: \text{both at once } \\ p_{ij} &= \text{probability that experiment 1 produces } x_i \text{ and experiment 2 produces } y_j \end{aligned}$

假设实验 $1$ （年龄）有均值 $m_1$ 。假设实验 $2$ （身高）有均值 $m_2$ 。实验 $1$ 和 $2$ 之间的协方差公式（1）考虑了年龄 $x_i$ ，身高 $y_j$ ：

协方差 $\sigma_{12} = \sum_{\text{all }} \sum_{i,j} p_{ij} (x_i - m_1) (y_j - m_2) \tag{2}$

为了理解 “联合概率 $p_{ij}$ ” 的概念，我们从两个小例子开始。

例子1 分别抛两个硬币。用 $1$ 表示正面 $0$ 表示反面，结果可能是 $(1, 1) 、 (1, 0) 、 (0, 1) 、 (0, 0)$ 。这四个结果都有概率 $p_{11}=p_{10}=p_{01}=p_{00}=\frac{1}{4}$ 。独立实验的概率有 $\text{Prob of } (i,j) = \text{(Prob of } i \text{) (Prob of } j \text{)}$ 。

例子2 把硬币朝同一个方向粘在一起。唯一的可能性是 $(1, 1) 、 (0, 0)$ 。它们有概率 $\frac{1}{2}、\frac{1}{2}$ 。概率 $p_{10}、p_{01}$ 为 $0$ 。

例子 1 和 2 的概率矩阵为

$\left[\begin{matrix} p_{11} & p_{12} \\ p_{21} & p_{22} \\ \end{matrix}\right]= \left[\begin{matrix} \frac{1}{4} & \frac{1}{4} \\ \frac{1}{4} & \frac{1}{4} \\ \end{matrix}\right] \quad P = \left[\begin{matrix} \frac{1}{2} & 0 \\ 0 & \frac{1}{2} \\ \end{matrix}\right]$

我们在 $P$ 上多花点时间，用好的矩阵符号来表示它。矩阵显示了每一对（ $x_i, y_j$ ）的概率 $p_{ij}$ —— 开始于（ $x_1,y_1$ ）=（正面，正面）和（ $x_1, y_2$ ）=（正面，反面）。注意行和 $p_i$ 和列和 $p_j$ 的总和为 $1$ 。

概率矩阵

$\left[\begin{matrix} p_{11} & p_{12} \\ p_{21} & p_{22} \\ \end{matrix}\right] \quad \begin{matrix} p_{11} + p_{12} = p_1 \\ p_{21} + p_{22} = p_2 \\ \end{matrix} \text{（first coin）} \\ \text{（second coin）column sums } P_1 P_2 \quad 4 \text{ entries add to } 1$

这些数字 $p_1, p_2$ 和 $P_1, P_2$ 被称为矩阵 $P$ 的边际（marginals）：