吴恩达机器学习入门笔记0-复习

0 复习

0.1 矩阵论

0.1.1 矩阵的逆

  • 只有方阵才存在逆矩阵
  • 不存在逆矩阵的矩阵称为奇异矩阵
  • 检查特征量中是否存在能被其他特征量表示的特征,有则删去
  • 样本数若少于特征量则不可逆,可用正则化解决

0.1.2 向量内积

[外链图片转存失败(img-s79ObL9E-1568601380446)(E:\Artificial Intelligence Markdown\Machine Learning\pictures\0.1.2 向量内积.png)]

0.1.3 正定矩阵与半正定矩阵

正定矩阵:给定一大小维\(n\times n\)的实对称矩阵A,若对于任意长度为n的非零向量x,有\(X^TAX>0\)恒成立,则矩阵A是一个正定矩阵

半正定矩阵:给定一大小维\(n\times n\)的实对称矩阵A,若对于任意长度为n的非零向量x,有\(X^TAX\ge0\)恒成立,则矩阵A是一个半正定矩阵

0.1.4 协方差矩阵\(\sum\)

\(X=(X_1,X_2,...,X_N)^T\)为n维随机变量,称矩阵
\[ C=(c_{ij})_{m\times n}\begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ \vdots & \vdots && \vdots \\ c_{n1} & c_{n2} & ... & c_{nn} \end{pmatrix}\tag{0.1} \]
\(c_{ij}=Cov(X_i,X_j)=E[X_i-E(X_i)][X_j-E(X_j)]\)

  • 性质
  1. 作为实对称矩阵,可以正交对角化,即存在正交矩阵U,使得\(U^T\sum U=\Lambda\)

  2. 作为半正定矩阵,可以进行Cholesky分解,即\(\sum=U^T\Lambda U\),其中U是上三角阵,\(\Lambda\)是对角线元素都非负的对角矩阵

    \(\sum=U^T\Lambda U=[U^T\Lambda^{1/2}][\Lambda^{1/2}U]=[\Lambda^{1/2}U]^T[\Lambda^{1/2}U]\)

    这样一来,矩阵\(\sum=C^TC\),其中\(C=\Lambda^{1/2}U\)

0.1.5 特征值与特征向量

\[ A\alpha=\lambda\alpha\tag{0 .2} \]

左边用矩阵A将向量\(\alpha\)做了一个转换,右边将向量\(\alpha\)拉伸了\(\lambda\)

说明A对向量\(\alpha\)变换后,长度拉伸\(\lambda\)倍,方向不变。

并不是所有的向量都可以被A通过变换拉伸而方向不变,能够被A拉伸且保持方向不变的向量就是A的特征向量,拉伸的倍数就是特征值

0.1.6 奇异值分解(SVD)

设矩阵A为\(m\times n\)矩阵,则A的SVD为:\(A=U\sum V^T\)

其中U是一个\(m\times m\)的矩阵;\(\sum\)是一个\(m\times n\)的矩阵,除主对角线上的元素外全为0,主对角线上每个元素称为奇异值;V是一个\(n\times n\)矩阵;U和V是酉矩阵,即满足\(U^TU=I,V^TV=I\)

0.2 概率论与数理统计

0.2.1 贝叶斯定理

在有限的信息下帮助预测出概率
\[ P(A|B)=P(A)\frac{P(B|A)}{P(B)}\tag{0.3} \]
即后验概率=先验概率×可能性函数

  • 先验概率P(A):不知道B事件发生的前提下A事件发生的概率
  • 可能性函数\(\frac{P(B|A)}{P(B)}\):新信息到来后对先验概率的调整因子
  • 后验概率P(A|B):B事件发生后对A事件概率的重新评估

0.2.2 全概率公式

\[ P(B)=P(B|A)P(A)+P(B|A')P(A')\tag{0.4} \]

0.2.3 条件独立性

\[ P(X,Y|Z)=P(X|Z)P(Y|Z)\tag{0.5} \]

当Z发生时,X发生与否与Y发生与否是无关的

0.2.4 极大似然估计

根据统计出的事实推断最有可能出现的情况

0.2.5 高斯分布(正态分布)

  • Gaussian (Normal) distribution

    \(X\sim\mathcal{N}(\mu,\sigma^2)\)

\[ p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})\tag{0.6} \]

曲线中心由均值\(\mu\)决定,概率峰值位置等于\(\mu\)

曲线宽度由标准差\(\sigma\)决定,\(\sigma\)越大,图形越胖越低

\(\mu=\frac{1}{m}\sum^m_{i=1}X^{(i)}\) \(\sigma^2=\frac{1}{m}\sum^m_{i=1}(X^{(i)}-\mu)^2\)

猜你喜欢

转载自www.cnblogs.com/jestland/p/11548377.html
今日推荐