机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量

1. 简介

1.1 信息检索和机器学习

从高维数据中提取信息的问题与降维问题密不可分,也就是说,从典型的高维观察中提取一些合理的特征的问题。例如,考虑一下人类在图像上识别人脸的能力。该图像被视为一个高维向量,例如 800 × 600 800 \times 600 800×600 的像素值,肯定不能作为原始像素数据存储在人类的大脑中。相反,我们必须提取一些特征,例如眼睛之间的相对距离,鼻子的长度,以及更抽象的不同脸部区域的相互作用,作为一个整体。储存和回忆这几个抽象特征的能力使我们有可能识别出一张脸,而不受不同的背景、太阳镜或部分遮挡的影响,并能区分不同的脸。在广泛的数据分析领域有更多的例子,通过提取特征可以从高维数据中挤出信息,从基因数据分类到音频信号处理,从数据可视化到脑电图(EEG)数据分析。

从形式上看,降维的问题是这样的。给定一个 p p p维的实值随机变量 X = [ X 1 … X p ] ⊤ X=\left[X_{1} \ldots X_{p}\right]^{\top} X=[X1Xp],找到一个图或算法

f : R p → R k  with  k ≪ p , f: \mathbb{R}^{p} \rightarrow \mathbb{R}^{k} \text { with } k \ll p, f:RpRk with kp,

使得 S = f ( X ) S=f(X) S=f(X)包含 “尽可能多的来自 X X X的信息”。根据上述例子的精神, R p \mathbb{R}^{p} Rp将被称为原始数据空间, R k \mathbb{R}^{k} Rk被称为还原数据空间或特征空间。

例如,信息的保存可以用方差来衡量,因此 S S S的方差应该反映 X X X的方差。这也可以解释为消除数据中的冗余。考虑下面的例子:温度被测量,一次是摄氏度(这将是随机变量的第一个条目 X 1 X_{1} X1),一次是华氏度 ( X 2 ) \left(X_{2}\right) (X2)。显然,这些信息可以简化为一个变量,例如 S 1 = X 1 S_{1}=X_{1} S1=X1,甚至不损失任何信息。

矩阵 X ⊂ R p × n \mathbf{X}\subset\mathbb{R}^{p\times n} XRp×n中的 ( i , j ) (i, j) (i,j)条目 x i j x_{i j} xij表示随机变量 X i X_{i} Xi在观测 j j j的实现,称为观测矩阵。其列是 p p p维随机变量 X X X的实现。

期望值用 E ( X ) = μ ∈ R p \mathbb{E}(X)=\mu\in \mathbb{R}^{p} E(X)=μRp来表示。由于我们处理的是一个多变量随机变量,方差现在由协方差矩阵(也称为方差-协方差矩阵)表示,其定义为

Σ = Var ⁡ ( X ) = E ( ( X − μ ) ( X − μ ) ⊤ ) ∈ R p × p . (1.1) \Sigma=\operatorname{Var}(X)=\mathbb{E}\left((X-\mu)(X-\mu)^{\top}\right) \in \mathbb{R}^{p \times p} .\tag{1.1} Σ=Var(X)=E((Xμ)(Xμ))Rp×p.(1.1)

( i , j ) (i, j) (i,j)项是 i th  i^{\text {th }} ith  j th  j^{\text {th }} jth 随机变量之间的协方差。协方差矩阵是对称的,即 Σ = Σ ⊤ \Sigma=\Sigma^{\top} Σ=Σ,并且是正半无限的 1 { }^{1} 1,即 Σ ≥ 0 ⇔ \Sigma \geq 0 \Leftrightarrow Σ0 x ⊤ Σ x ≥ 0 ∀ x x^{\top} \Sigma x \geq 0 \forall x xΣx0x

1 { }^{1} 1 in contrast to positive definite, i.e. x ⊤ Σ x > 0 ∀ x ≠ 0 x^{\top} \Sigma x>0 \forall x \neq 0 xΣx>0x=0 and x ⊤ Σ x = 0 ⇔ x = 0 x^{\top} \Sigma x=0 \Leftrightarrow x=0 xΣx=0x=0

例1.1. 考虑两个常数随机变量 X 1 ≡ const X_{1} \equiv \text{const} X1const X 2 ≡ const X_{2} \equiv \text{const} X2const。这意味着我们有一个协方差矩阵 Σ = 0 \Sigma=0 Σ=0的二维随机变量。这个例子表明, Σ \Sigma Σ不一定是正定的。

由于随机变量的实际分布通常是未知的,期望值通常是在 n n n观测值的基础上估计的。

1 n ∑ j = 1 n [ x 1 j ⋮ x p j ] = 1 n X 1 n : = μ ^ (1.2) \frac{1}{n} \sum_{j=1}^{n}\left[\begin{array}{c} x_{1 j} \\ \vdots \\ x_{p j} \end{array}\right]=\frac{1}{n} \mathbf{X} \mathbb{1}_{n}:=\hat{\mu} \tag{1.2} n1j=1nx1jxpj=n1X1n:=μ^(1.2)
利用这个估计的期望值和克罗内克积(Kronecker product) 2 ^{2} 2 ⊗ \otimes
可以计算出居中的观测矩阵 X \mathbf{X} X,如下所示。

X ‾ = X − μ ^ ⊗ [ 1 ⋯ 1 ] (1.3) \overline{\mathbf{X}}=\mathbf{X}-\hat{\mu} \otimes\left[\begin{array}{ccc} 1 & \cdots & 1 \end{array}\right]\tag{1.3} X=Xμ^[11](1.3)

2 { }^{2} 2 The Kronecker product of two matrices A ⊗ B \mathbf{A} \otimes \mathbf{B} AB with A = { a i j } ∈ R k × l , B = { b i j } ∈ R m × n \mathbf{A}=\left\{a_{i j}\right\} \in \mathbb{R}^{k \times l}, \mathbf{B}=\left\{b_{i j}\right\} \in \mathbb{R}^{m \times n} A={ aij}Rk×l,B={ bij}Rm×n is a ( k m × l n ) (k m \times l n) (km×ln)-matrix C \mathbf{C} C, such that C = [ a 11 B ⋯ a 1 l B ⋮ ⋱ ⋮ a k 1 B ⋯ a k l B ] \mathbf{C}=\left[\begin{array}{ccc}a_{11} \mathbf{B} & \cdots & a_{1 l} \mathbf{B} \\ \vdots & \ddots & \vdots \\ a_{k 1} \mathbf{B} & \cdots & a_{k l} \mathbf{B}\end{array}\right] C=a11Bak1Ba1lBaklB

有了居中的观察矩阵 X ‾ \overline{\mathrm{X}} X,协方差矩阵 Σ = Cov ⁡ ( X ) \Sigma=\operatorname{Cov}(X) Σ=Cov(X)可以通过以下方式估计

Σ ^ = 1 n − 1 X ‾ X ‾ ⊤ . \widehat{\Sigma}=\frac{1}{n-1} \overline{\mathbf{X}} \overline{\mathbf{X}}^{\top} . Σ =n11XX.

由于在实际应用中 n n n趋向于大,也可以使用近似值 1 n X ‾ X ‾ ⊤ \frac{1}{n} \overline{\mathbf{X}} \overline{\mathbf{X}}^{\top} n1XX.

1.2 关于随机变量的初步说明

我们想回顾一下概率论中的一些基本定义和符号,在本讲义中我们偶尔会用到。为了我们的目的,考虑连续或离散的实数多维随机变量就足够了。更正式地说,让 X Ω → R p X \Omega\rightarrow\mathbb{R}^{p} XΩRp是一个随机变量,并将其相对于通常勒贝格测度的密度表示为 p X ( x ) p_{X}(x) pX(x)。我们将使用非常草率但非常方便的符号 X ∈ R p X\in\mathbb{R}^{p} XRp来表示随机变量 X X X R p \mathbb{R}^{p} Rp中取值。

对于(绝对)连续随机变量,密度是一个从 R p \mathbb{R}^{p} Rp R \mathbb{R} R的连续函数。如果是离散随机变量,其取值为 x i x_{i} xi,概率为 p i p_{i} pi,我们采用狄拉克δ函数 3 { }^{3} 3来描述其密度,即

p X ( x ) = ∑ i p i δ ( x − x i ) . p_{X}(x)=\sum_{i} p_{i} \delta\left(x-x_{i}\right) . pX(x)=ipiδ(xxi).

3 { }^{3} 3 The Dirac-Delta-Function fulfills the condition that δ ( t ) = 0 \delta(t)=0 δ(t)=0 for t ≠ 0 t \neq 0 t=0 and ∫ R p δ ( t ) d t = 1 p \int_{\mathbb{R}^{p}} \delta(t) \mathrm{d} t=\mathbb{1}_{p} Rpδ(t)dt=1p. i.e. δ \delta δ has an infinitely high peak at 0. 0 . 0.

所以,如果 A ⊂ R p \mathcal{A} \subset \mathbb{R}^{p} ARp,则 X X X A \mathcal{A} A中取值的概率为

Pr ⁡ ( X ∈ A ) = ∫ A p X ( x ) d x . \operatorname{Pr}(X \in \mathcal{A})=\int_{\mathcal{A}} p_{X}(x) \mathrm{d} x . Pr(XA)=ApX(x)dx.

注意,在离散随机变量的情况下,这个表达式只是

Pr ⁡ ( X ∈ A ) = ∫ A ∑ i p i δ ( x − x i ) d x = ∑ { i ∣ x i ∈ A } p i . \operatorname{Pr}(X \in \mathcal{A})=\int_{\mathcal{A}} \sum_{i} p_{i} \delta\left(x-x_{i}\right) \mathrm{d} x=\sum_{\left\{i \mid x_{i} \in \mathcal{A}\right\}} p_{i} . Pr(XA)=Aipiδ(xxi)dx={ ixiA}pi.
通过知道两个随机变量 X ∈ R p X\in \mathbb{R}^{p} XRp Y ∈ R k Y\in \mathbb{R}^{k} YRk的联合密度 p X , Y ( x , y ) p_{X, Y}(x, y) pX,Y(x,y),就可以分别推导出 X X X Y Y Y的个体密度。这些被称为边缘密度(marginal densities),它们由以下公式给出

p X ( x ) = ∫ R k p X , Y ( x , y ) d y , p Y ( y ) = ∫ R p p X , Y ( x , y ) d x . \begin{aligned} &p_{X}(x)=\int_{\mathbb{R}^{k}} p_{X, Y}(x, y) \mathrm{d} y, \\ &p_{Y}(y)=\int_{\mathbb{R}^{p}} p_{X, Y}(x, y) \mathrm{d} x . \end{aligned} pX(x)=RkpX,Y(x,y)dy,pY(y)=RppX,Y(x,y)dx.
如果联合密度函数是给定的,对两个变量之一的某个实现的了解,例如 X X X,可以推断出关于 Y Y Y的分布信息。由此产生的密度函数被称为条件密度函数,如果 X X X的实现是 x ∈ R p x \in \mathbb{R}^{p} xRp,它由以下公式给出

p Y ∣ X = x ( y ) = p X , Y ( x , y ) p X ( x ) . p_{Y \mid X=x}(y)=\frac{p_{X, Y}(x, y)}{p_{X}(x)} . pYX=x(y)=pX(x)pX,Y(x,y).

4 { }^{4} 4 从形式上看,这个集合必须是可测的,相对于博雷尔 σ \sigma σ-代数而言,但如果你不知道什么是可测的,你能想象的所有子集都满足这个条件。有两个量在描述随机变量 X ∈ R p X\in\mathbb{R}^{p} XRp的统计属性时起着突出的作用。它们是第一和第二时刻,也被称为期望值

E [ X ] = ∫ R p x p X ( x ) d x = : μ \mathbb{E}[X]=\int_{\mathbb{R}^{p}} x p_{X}(x) \mathrm{d} x=: \mu E[X]=RpxpX(x)dx=:μ

和方差/协方差

Var ⁡ [ X ] = ∫ R p ( x − μ ) ( x − μ ) ⊤ p X ( x ) d x . \operatorname{Var}[X]=\int_{\mathbb{R}^{p}}(x-\mu)(x-\mu)^{\top} p_{X}(x) \mathrm{d} x . Var[X]=Rp(xμ)(xμ)pX(x)dx.

注意, μ ∈ R p \mu\in\mathbb{R}^{p} μRp Var ⁡ [ X ] \operatorname{Var}[X] Var[X] R p × p \mathbb{R}^{p\times p} Rp×p的半正定矩阵。

Exercise:证明方差/协方差矩阵是正半定的

x 1 x_{1} x1 x 2 x_{2} x2 x 3 x_{3} x3 x 4 x_{4} x4 p y ( Y ) ↓ p_{y}(Y) \downarrow py(Y)
y 1 y_{1} y1 1 8 \frac{1}{8} 81 1 16 \frac{1}{16} 161 1 32 \frac{1}{32} 321 1 32 \frac{1}{32} 321 1 4 \frac{1}{4} 41
y 2 y_{2} y2 1 16 \frac{1}{16} 161 1 8 \frac{1}{8} 81 1 32 \frac{1}{32} 321 1 32 \frac{1}{32} 321 1 4 \frac{1}{4} 41
y 3 y_{3} y3 1 16 \frac{1}{16} 161 1 16 \frac{1}{16} 161 1 16 \frac{1}{16} 161 1 16 \frac{1}{16} 161 1 4 \frac{1}{4} 41
y 4 y_{4} y4 1 4 \frac{1}{4} 41 0 0 0 1 4 \frac{1}{4} 41
p x ( X ) p_{x}(X) px(X) 1 2 \frac{1}{2} 21 1 4 \frac{1}{4} 41 1 8 \frac{1}{8} 81 1 8 \frac{1}{8} 81 1

表1.1: 该表显示了一个示例性的联合概率分布。

例1.2. 表1.1中给出了一个二维离散随机变量的联合概率分布的例子。边际密度分别用 p Y ( y ) p_{Y}(y) pYy p X ( x ) p_{X}(x) pXx表示。作为一个练习,请计算在 Y = y 2 Y=y_{2} Y=y2的情况下 X X X的条件密度。

Answer: p X ∣ Y = y 2 ( x ) = ∑ i p i δ ( x − x i ) p_{X \mid Y=y_{2}}(x)=\sum_{i} p_{i} \delta\left(x-x_{i}\right) pXY=y2(x)=ipiδ(xxi), with p 1 = 1 / 4 , p 2 = 1 / 2 , p 3 = 1 / 8 , p 4 = 1 / 8. p_{1}=1 / 4, p_{2}=1 / 2, p_{3}=1 / 8, p_{4}=1 / 8 . p1=1/4,p2=1/2,p3=1/8,p4=1/8.

猜你喜欢

转载自blog.csdn.net/qq_37266917/article/details/122054067
今日推荐