【深度学习500问】-数学基础

深度学习500问–数学基础

深度学习500问总目录链接: https://blog.csdn.net/m0_37882192/article/details/109693508.

百度云完整下载链接:

1、标量、向量、张量之间的联系

标量(scalar)
一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。

向量(vector)
​一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量 X X X的第一个元素是 X 1 X_1 X1,第二个元素是 X 2 X_2 X2,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。

矩阵(matrix)
​矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如 A A A

张量(tensor)
​在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用 A A A 来表示张量“A”。张量 A A A中坐标为 ( i , j , k ) (i,j,k) (i,j,k)的元素记作 A ( i , j , k ) A_{(i,j,k)} A(i,j,k)

四者之间关系

标量是0阶张量,向量是一阶张量。举例:
​标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。
​向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。
​张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。

2、向量和矩阵的范数

向量的范数(norm)
​ 定义一个向量为: a ⃗ = [ − 5 , 6 , 8 , − 10 ] \vec{a}=[-5, 6, 8, -10] a =[5,6,8,10]。任意一组向量设为 x ⃗ = ( x 1 , x 2 , . . . , x N ) \vec{x}=(x_1,x_2,...,x_N) x =(x1,x2,...,xN)。其不同范数求解如下:

向量的1范数:向量的各个元素的绝对值之和,上述向量 a ⃗ \vec{a} a 的1范数结果就是:29。
∥ x ⃗ ∥ 1 = ∑ i = 1 N ∣ x i ∣ \Vert\vec{x}\Vert_1=\sum_{i=1}^N\vert{x_i}\vert x 1=i=1Nxi

向量的2范数:向量的每个元素的平方和再开平方根,上述 a ⃗ \vec{a} a 的2范数结果就是:15。
∥ x ⃗ ∥ 2 = ∑ i = 1 N ∣ x i ∣ 2 \Vert\vec{x}\Vert_2=\sqrt{\sum_{i=1}^N{\vert{x_i}\vert}^2} x 2=i=1Nxi2

向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量 a ⃗ \vec{a} a 的负无穷范数结果就是:5。
∥ x ⃗ ∥ − ∞ = min ⁡ ∣ x i ∣ \Vert\vec{x}\Vert_{-\infty}=\min{|{x_i}|} x =minxi

向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量 a ⃗ \vec{a} a 的正无穷范数结果就是:10。
∥ x ⃗ ∥ + ∞ = max ⁡ ∣ x i ∣ \Vert\vec{x}\Vert_{+\infty}=\max{|{x_i}|} x +=maxxi

向量的p范数:
L p = ∥ x ⃗ ∥ p = ∑ i = 1 N ∣ x i ∣ p p L_p=\Vert\vec{x}\Vert_p=\sqrt[p]{\sum_{i=1}^{N}|{x_i}|^p} Lp=x p=pi=1Nxip

矩阵的范数

定义一个矩阵 A = [ − 1 , 2 , − 3 ; 4 , − 6 , 6 ] A=[-1, 2, -3; 4, -6, 6] A=[1,2,3;4,6,6]。 任意矩阵定义为: A m × n A_{m\times n} Am×n,其元素为 a i j a_{ij} aij

矩阵的范数定义为

∥ A ∥ p : = sup ⁡ x ≠ 0 ∥ A x ∥ p ∥ x ∥ p \Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p} Ap:=x=0supxpAxp

当向量取不同范数时, 相应得到了不同的矩阵范数。

矩阵的1范数(列范数):矩阵的每一列上的元

素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵 A A A的1范数先得到 [ 5 , 8 , 9 ] [5,8,9] [5,8,9],再取最大的最终结果就是:9。 ∥ A ∥ 1 = max ⁡ 1 ≤ j ≤ n ∑ i = 1 m ∣ a i j ∣ \Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}| A1=1jnmaxi=1maij

矩阵的2范数:矩阵 A T A A^TA ATA的最大特征值开平方根,上述矩阵 A A A的2范数得到的最终结果是:10.0623。

∥ A ∥ 2 = λ m a x ( A T A ) \Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)} A2=λmax(ATA)

其中, λ m a x ( A T A ) \lambda_{max}(A^T A) λmax(ATA) A T A ​ A^T A​ ATA 的特征值绝对值的最大值。

矩阵的无穷范数(行范数):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵 A A A的行范数先得到 [ 6 ; 16 ] [6;16] [616],再取最大的最终结果就是:16。 ∥ A ∥ ∞ = max ⁡ 1 ≤ i ≤ m ∑ j = 1 n ∣ a i j ∣ \Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}| A=1immaxj=1naij

矩阵的核范数:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。

矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏,上述矩阵 A A A最终结果就是:6。

矩阵的L1范数:矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏,上述矩阵 A A A最终结果就是:22。

矩阵的F范数:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的优点在于它是一个凸函数,可以求导求解,易于计算,上述矩阵A最终结果就是:10.0995。

∥ A ∥ F = ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ) \Vert A\Vert_F=\sqrt{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^2)} AF=(i=1mj=1naij2)

矩阵的L21范数:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵 A A A最终结果就是:17.1559。
矩阵的 p范数
∥ A ∥ p = ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ p ) p \Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^p)} Ap=p(i=1mj=1naijp)

3、如何判断一个矩阵为正定?

判定一个矩阵是否为正定,通常有以下几个方面:

顺序主子式全大于0;
存在可逆矩阵 C C C使 C T C C^TC CTC等于该矩阵;
正惯性指数等于 n n n
合同于单位矩阵 E E E(即:规范形为 E E E
标准形中主对角元素全为正;
特征值全为正;
是某基的度量矩阵。

4、导数偏导计算

导数定义:

导数(derivative)代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。​

注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有

v = s t v=\frac{s}{t} v=ts

其中 v v v表示平均速度, s s s表示路程, t t t表示时间。这个公式可以改写为

v ˉ = Δ s Δ t = s ( t 0 + Δ t ) − s ( t 0 ) Δ t \bar{v}=\frac{\Delta s}{\Delta t}=\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t} vˉ=ΔtΔs=Δts(t0+Δt)s(t0)

其中 Δ s \Delta s Δs表示两点之间的距离,而 Δ t \Delta t Δt表示走过这段距离需要花费的时间。当 Δ t \Delta t Δt趋向于0( Δ t → 0 \Delta t \to 0 Δt0)时,也就是时间变得很短时,平均速度也就变成了在 t 0 t_0 t0时刻的瞬时速度,表示成如下形式:

v ( t 0 ) = lim ⁡ Δ t → 0 v ˉ = lim ⁡ Δ t → 0 Δ s Δ t = lim ⁡ Δ t → 0 s ( t 0 + Δ t ) − s ( t 0 ) Δ t v(t_0)=\lim_{\Delta t \to 0}{\bar{v}}=\lim_{\Delta t \to 0}{\frac{\Delta s}{\Delta t}}=\lim_{\Delta t \to 0}{\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t}} v(t0)=Δt0limvˉ=Δt0limΔtΔs=Δt0limΔts(t0+Δt)s(t0)

实际上,上式表示的是路程 s s s关于时间 t t t的函数在 t = t 0 t=t_0 t=t0处的导数。一般的,这样定义导数:如果平均变化率的极限存在,即有

lim ⁡ Δ x → 0 Δ y Δ x = lim ⁡ Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x \lim_{\Delta x \to 0}{\frac{\Delta y}{\Delta x}}=\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}} Δx0limΔxΔy=Δx0limΔxf(x0+Δx)f(x0)

则称此极限为函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_0 x0 处的导数。记作 f ′ ( x 0 ) f'(x_0) f(x0) y ′ ∣ x = x 0 y'\vert_{x=x_0} yx=x0 d y d x ∣ x = x 0 \frac{dy}{dx}\vert_{x=x_0} dxdyx=x0 d f ( x ) d x ∣ x = x 0 \frac{df(x)}{dx}\vert_{x=x_0} dxdf(x)x=x0

通俗地说,导数就是曲线在某一点切线的斜率。

偏导数:

既然谈到偏导数(partial derivative),那就至少涉及到两个自变量。以两个自变量为例, z = f ( x , y ) ​ z=f(x,y)​ z=f(x,y),从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。

注意:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

设函数 z = f ( x , y ) ​ z=f(x,y)​ z=f(x,y)在点 ( x 0 , y 0 ) ​ (x_0,y_0)​ (x0,y0)的领域内有定义,当 y = y 0 ​ y=y_0​ y=y0时, z ​ z​ z可以看作关于 x ​ x​ x的一元函数 f ( x , y 0 ) ​ f(x,y_0)​ f(x,y0),若该一元函数在 x = x 0 ​ x=x_0​ x=x0处可导,即有

lim ⁡ Δ x → 0 f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) Δ x = A \lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A Δx0limΔxf(x0+Δx,y0)f(x0,y0)=A

函数的极限 A A A存在。那么称 A A A为函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处关于自变量 x x x的偏导数,记作 f x ( x 0 , y 0 ) f_x(x_0,y_0) fx(x0,y0) ∂ z ∂ x ∣ y = y 0 x = x 0 \frac{\partial z}{\partial x}\vert_{y=y_0}^{x=x_0} xzy=y0x=x0 ∂ f ∂ x ∣ y = y 0 x = x 0 \frac{\partial f}{\partial x}\vert_{y=y_0}^{x=x_0} xfy=y0x=x0 z x ∣ y = y 0 x = x 0 z_x\vert_{y=y_0}^{x=x_0} zxy=y0x=x0

偏导数在求解时可以将另外一个变量看做常数,利用普通的求导方式求解,比如 z = 3 x 2 + x y z=3x^2+xy z=3x2+xy关于 x x x的偏导数就为 z x = 6 x + y z_x=6x+y zx=6x+y,这个时候 y y y相当于 x x x的系数。

某点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处的偏导数的几何意义为曲面 z = f ( x , y ) z=f(x,y) z=f(x,y)与面 x = x 0 x=x_0 x=x0或面 y = y 0 y=y_0 y=y0交线在 y = y 0 y=y_0 y=y0 x = x 0 x=x_0 x=x0处切线的斜率。

5、特征值和特征向量

特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors);

特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。

如果说一个向量 v ⃗ \vec{v} v 是方阵 A A A的特征向量,将一定可以表示成下面的形式:

A ν = λ ν A\nu = \lambda \nu Aν=λν

λ \lambda λ为特征向量 v ⃗ \vec{v} v 对应的特征值。特征值分解是将一个矩阵分解为如下形式:

A = Q ∑ Q − 1 A=Q\sum Q^{-1} A=QQ1

其中, Q Q Q是这个矩阵 A A A的特征向量组成的矩阵, ∑ \sum 是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵 A A A的信息可以由其特征值和特征向量表示。

6、概率分布与随机变量

随机变量(random variable)

表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。
​随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。

变量与随机变量的区别:
​当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量。

比如:
​ 当变量 x x x值为100的概率为1的话,那么 x = 100 x=100 x=100就是确定了的,不会再有变化,除非有进一步运算.​ 当变量 x x x的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法,就是 概率分布(probability distribution).

随机变量可以分为离散型随机变量和连续型随机变量。

相应的描述其概率分布的函数是

概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布,通常用大写字母 P P P表示。

概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布,通常用小写字母 p p p表示。

7、常见概率分布

Bernoulli分布

Bernoulli分布是单个二值随机变量分布, 单参数 ϕ ​ \phi​ ϕ∈[0,1]控制, ϕ ​ \phi​ ϕ给出随机变量等于1的概率. 主要性质有: KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ P(x=1) &= \phi… 其期望和方差为: KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ E_x[x] &= \phi… Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中 k k k是有限值.Multinoulli分布由向量 p ⃗ ∈ [ 0 , 1 ] k − 1 \vec{p}\in[0,1]^{k-1} p [0,1]k1参数化,每个分量 p i p_i pi表示第 i i i个状态的概率, 且 p k = 1 − 1 T p ​ p_k=1-1^Tp​ pk=11Tp.

适用范围: 伯努利分布适合对离散型随机变量建模.

高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:
N ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right ) N(x;μ,σ2)=2πσ21 exp(2σ21(xμ)2) 其中, μ ​ \mu​ μ σ ​ \sigma​ σ分别是均值和方差, 中心峰值x坐标由 μ ​ \mu​ μ给出, 峰的宽度受 σ ​ \sigma​ σ控制, 最大点在 x = μ ​ x=\mu​ x=μ处取得, 拐点为 x = μ ± σ ​ x=\mu\pm\sigma​ x=μ±σ

正态分布中,±1 σ \sigma σ、±2 σ \sigma σ、±3 σ \sigma σ下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。

此外, 令 μ = 0 , σ = 1 ​ \mu=0,\sigma=1​ μ=0,σ=1高斯分布即简化为标准正态分布: N ( x ; μ , σ 2 ) = 1 2 π e x p ( − 1 2 x 2 ) N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ) N(x;μ,σ2)=2π1 exp(21x2) 对概率密度函数高效求值: N ( x ; μ , β − 1 ) = β 2 π e x p ( − 1 2 β ( x − μ ) 2 ) N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right) N(x;μ,β1)=2πβ exp(21β(xμ)2)

其中, β = 1 σ 2 \beta=\frac{1}{\sigma^2} β=σ21通过参数 β ∈ ( 0 , ∞ ) ​ \beta∈(0,\infty)​ β0来控制分布精度。

指数分布

深度学习中, 指数分布用来描述在 x = 0 ​ x=0​ x=0点处取得边界点的分布, 指数分布定义如下: p ( x ; λ ) = λ I x ≥ 0 e x p ( − λ x ) p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x}) p(x;λ)=λIx0exp(λx) 指数分布用指示函数 I x ≥ 0 ​ I_{x\geq 0}​ Ix0来使 x ​ x​ x取负值时的概率为零。

Laplace 分布

一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点 μ \mu μ处设置概率质量的峰值 L a p l a c e ( x ; μ ; γ ) = 1 2 γ e x p ( − ∣ x − μ ∣ γ ) Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right) Laplace(x;μ;γ)=2γ1exp(γxμ)

Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克 δ ​ \delta​ δ函数(也称为单位脉冲函数)定义如下: p ( x ) = δ ( x − μ ) , x ≠ μ p(x)=\delta(x-\mu), x\neq \mu p(x)=δ(xμ),x=μ

∫ a b δ ( x − μ ) d x = 1 , a < μ < b \int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b abδ(xμ)dx=1,a<μ<b

Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现 p ^ ( x ⃗ ) = 1 m ∑ i = 1 m δ ( x ⃗ − x ⃗ ( i ) ) \hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)}) p^(x )=m1i=1mδ(x x (i)) , 其中, m个点 x 1 , . . . , x m x^{1},...,x^{m} x1,...,xm是给定的数据集, 经验分布将概率密度 1 m ​ \frac{1}{m}​ m1赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

8、期望、方差、协方差、相关系数

期望

在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

线性运算: E ( a x + b y + c ) = a E ( x ) + b E ( y ) + c E(ax+by+c) = aE(x)+bE(y)+c E(ax+by+c)=aE(x)+bE(y)+c
推广形式: E ( ∑ k = 1 n a i x i + c ) = ∑ k = 1 n a i E ( x i ) + c E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c} E(k=1naixi+c)=k=1naiE(xi)+c
函数期望:设 f ( x ) f(x) f(x) x x x的函数,则 f ( x ) f(x) f(x)的期望为
离散函数: E ( f ( x ) ) = ∑ k = 1 n f ( x k ) P ( x k ) E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)} E(f(x))=k=1nf(xk)P(xk)
连续函数: E ( f ( x ) ) = ∫ − ∞ + ∞ f ( x ) p ( x ) d x E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx} E(f(x))=+f(x)p(x)dx
注意:

函数的期望大于等于期望的函数(Jensen不等式),即 E ( f ( x ) ) ⩾ f ( E ( x ) ) E(f(x))\geqslant f(E(x)) E(f(x))f(E(x))
一般情况下,乘积的期望不等于期望的乘积。
如果 X X X Y Y Y相互独立,则 E ( x y ) = E ( x ) E ( y ) ​ E(xy)=E(x)E(y)​ E(xy)=E(x)E(y)

方差

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:

V a r ( x ) = E ( ( x − E ( x ) ) 2 ) Var(x) = E((x-E(x))^2) Var(x)=E((xE(x))2)

方差性质:

1) V a r ( x ) = E ( x 2 ) − E ( x ) 2 Var(x) = E(x^2) -E(x)^2 Var(x)=E(x2)E(x)2
2)常数的方差为0;
3)方差不满足线性性质;
4)如果 X X X Y Y Y相互独立, V a r ( a x + b y ) = a 2 V a r ( x ) + b 2 V a r ( y ) Var(ax+by)=a^2Var(x)+b^2Var(y) Var(ax+by)=a2Var(x)+b2Var(y)

协方差

协方差是衡量两个变量线性相关性强度及变量尺度。 两个随机变量的协方差定义为: C o v ( x , y ) = E ( ( x − E ( x ) ) ( y − E ( y ) ) ) Cov(x,y)=E((x-E(x))(y-E(y))) Cov(x,y)=E((xE(x))(yE(y)))

方差是一种特殊的协方差。当 X = Y X=Y X=Y时, C o v ( x , y ) = V a r ( x ) = V a r ( y ) Cov(x,y)=Var(x)=Var(y) Cov(x,y)=Var(x)=Var(y)

协方差性质:

1)独立变量的协方差为0。
2)协方差计算公式:

C o v ( ∑ i = 1 m a i x i , ∑ j = 1 m b j y j ) = ∑ i = 1 m ∑ j = 1 m a i b j C o v ( x i y i ) Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)} Cov(i=1maixi,j=1mbjyj)=i=1mj=1maibjCov(xiyi)

3)特殊情况:

C o v ( a + b x , c + d y ) = b d C o v ( x , y ) Cov(a+bx, c+dy) = bdCov(x, y) Cov(a+bx,c+dy)=bdCov(x,y)

相关系数

相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为: C o r r ( x , y ) = C o v ( x , y ) V a r ( x ) V a r ( y ) Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} Corr(x,y)=Var(x)Var(y) Cov(x,y)

相关系数的性质:
1)有界性。相关系数的取值范围是 [-1,1],可以看成无量纲的协方差。
2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为0时,表示两个变量没有相关性。

猜你喜欢

转载自blog.csdn.net/m0_37882192/article/details/109693650