AI—常用数学知识总结

一、常用数学知识

(以下加粗的是比较重要的,最重要的是梯度和MLE)

  • 常见函数
  • 导数
  • 梯度
  • Taylor公式
  • 联合概率、条件概率、全概率公式、贝叶斯公式
  • 期望、方差、协方差
  • 大数定理、中心极限定理
  • 最大似然估计(MLE)
  • 向量、矩阵的运算
  • 矩阵的求导
  • SVD
  • QR分解

二、不容易理解的概念总结

  1. 导数就是曲线的斜率,是曲线变化快慢的一个反应。
  2. 二阶导数是斜率变化的反应,表现曲线是凹凸性。
  3. 梯度:梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取的最大值,即函数在该点处沿着该方向变化最快,变化率最大(即该梯度向量的模);当函数为一维函数的时候,梯度其实就是导数。
  4. Taylor(泰勒)公式是用一个函数在某点的信息描述其附近取值的公式。如果函数足够平滑,在已知函数在某一点的各阶导数值的情况下,Taylor公式可以利用这些导数值来做系数构建一个多项式近似函数在这一点的邻域中的值。
  5. 概率是以假设为基础的,即假定随机现象所发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。一般来讲,如果在全部可能出现的基本事件范围内构成事件A的基本事件有a个,不构成事件A的有b个,那么事件A出现的概率为:P(A)=a/(a+b)。概率体现的是随机事件A发生可能的大小度量(数值)
  6. 联合概率:事件A和事件B同时发生的概率
  7. 条件概率:事件A在另外一个事件B已经发生的条件下的发生概率叫做条件概率。在B条件下A发生的概率。
  8. 重点理解:全概率公式、贝叶斯公式。
  9. 期望(mean):也就是均值,是概率加权下的“平均值”,是每次可能结果的概率乘以其结果的总和,反映的实随机变量平均取值大小。连续型的是积分形式,离散型的是乘积和。
  10. 方差(variance)是衡量随机变量或一组数据时离散程度的度量,是用来度量随机变量和其数学期望之间的偏离程度。即方差是衡量数据原数据和期望/均值相差的度量值。
  11. 标准差(Standard Deviation)是离均值平方的算术平均数的平方根,用符号σ表示,其实标准差就是方差的算术平方根。
  12. 标准差和方差都是测量离散趋势的最重要、最常见的指标。标准差和方差的不同点在于,标准差和变量的计算单位是相同的,比方差清楚,因此在很多分析的时候使用的是标准差。
  13. 协方差常用于衡量两个变量的总体误差;当两个变量相同的情况下,协方差其实就是方差。
  14. 协方差是两个随机变量具有相同方向变化趋势的度量:
    若Cov(X,Y) > 0, 则X和Y的变化趋势相同;
    若Cov(X,Y) < 0, 则X和Y的变化趋势相反;
    若Cov(X,Y) = 0,则X和Y不相关,也就是变化没有什么相关性
  15. 大数定律的意义:随着样本容量n的增加,样本平均数将接近于总体平均数(期望 μ),所以在统计推断中,一般都会使用样本平均数估计总体平均数的值。
    也就是我们会使用一部分样本的平均值来代替整体样本的期望/均值,出现偏差的可能是存在的,但是当n足够大的时候,偏差的可能性是非常小的,当n无限大的时候,这种可能性的概率基本为0。

大数定律的主要作用就是为使用频率来估计概率提供了理论支持;为使用部分数据来近似的模拟构建全部数据的特征提供了理论支持。
验证大数定理的python程序:

import random
import numpy as np
import matplotlib.pyplot as plt
'''
    大数定理的演示证明
'''
def generate_random_int(n):
    """
    产生n个1-9的随机数
    :return:
    """
    return [random.randint(1,9) for i in range(n)]

if __name__ == '__main__':
    number = 10000
    x = [i for i in range(number + 1) if i!=0]
    # 产生number个【1,9】的随机数
    total_random_int = generate_random_int(number)
    # 求n个[1,9]的随机数的均值,n=1,2,3,4,……
    y = [np.mean(total_random_int[0:i+1]) for i in range(number)]

    plt.plot(x, y, 'b-')
    plt.xlim(0, number)
    plt.grid(True)
    plt.show()

可以看到,最终趋近于5

  1. 中心极限定理(Central Limit Theorem);中心极限定理就是一般在同分布的情况下,抽样样本值的规范和在总体数量趋于无穷时的极限分布近似于正态分布。
  2. 最大似然法(Maximum Likelihood Estimation, MLE)也称为最大概似估计、极大似然估计,是一种具有理论性的参数估计方法。基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大;一般步骤如下:
  • 写出似然函数;
  • 对似然函数取对数,并整理;
  • 求导数;
  • 解似然方程
  1. 向量的数量积:两个向量的数量积(内积、点积)是一个数量/实数,中间用点号连接表示,两个向量模的积再乘以cos夹角。
  2. 向量的向量积:两个向量的向量积(外积、叉积)是一个向量,中间用乘号连接表示,向量积即两个不共线非零向量所在平面的一组法向量。两个向量模的积再乘以sin夹角。
  3. QR分解:A 矩阵分解为Q矩阵和R矩阵。(A矩阵为满秩矩阵,Q为正交矩阵,Q的转置乘Q等于单位矩阵,R为上三角矩阵),实际中,QR分解经常被用来解线性最小二乘问题
  4. SVD分解:奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法,可以看做是对称方阵在任意矩阵上的推广。将一个矩阵分解为三个矩阵相乘。中间的矩阵式对角矩阵,对角线上是奇异值,从小到大排列,另外两个矩阵则是正交矩阵。主要用于解线性最小二乘问题和数据降维处理

猜你喜欢

转载自blog.csdn.net/huxiutao/article/details/87650077