经典机器学习算法的数学推导

线性回归

为什么叫h(x)  

为什么用θ表示参数

θ是向量还是矩阵?

为什么用x表示特征

为什么X是一个R^{d}来表示的向量

 为什么在表格添加一列1 ?便于矩阵计算

为什么用\varepsilon表示误差? 

K-means

基础概念:

1.要得到簇的个数,需要指定K值

2.质心:均值,即向量各维取平均即可

3.距离的度量:常用欧几里得距离和余弦相似度(先标准化)

4.优化目标: 就是每个簇内每个样本点到簇中心的距离之和最小

必须掌握的技巧

1.提出常数和取对数

 2.只关注含变量的部分

 3.用向量表示数组

4.转置符号的处理 

5.与对称阵求偏导的相关公式 

XX^{T}是对称矩阵

对于式子 \theta XX^{T}\theta ^{T} 对θ求偏导结果是两倍的对称阵乘变量(2XX^{T}\theta

 6.矩阵求导公式

都是对θ求导:我转你不转,你转我不转

\partial \theta ^{T}X^{T}y = X^{T}y

 \partial \theta X^{T}y = ( X^{T}y)^{T}

7.如何消去一个矩阵

X^{T}\theta -> θ 需要左乘(X^{T})^{-1}

8.如何理解梯度下降 是沿梯度的反方向

因为梯度一般是上升的 为了下山,应该往梯度的反方向走

9.如何理解分别对每个参数分别优化

因为所有的前提是独特征立的,既然特征是独立的,那么特征的系数(参数)也可以认为是独立的

10.只关注需要求偏导的变量的部分

对 \theta _{j}求偏导,那么其他\theta x的结构都是常数项,只有x_{j}\theta _{j}有关

必须记住的表示方法

1.用求和形式表示多项式,偏置项合并到关于θ的向量里

2.让损失函数越小越好

3.\varepsilon是独立并且具有相同的分布 服从均值为0,方差为θ^2的高斯分布

   \varepsilon为什么是独立的? 误差是由样本产生的,而样本之间是独立的

   \varepsilon为什么是同分布的?因为默认样本是同批产生的

   \varepsilon为什么服从的是高斯分布?

    θ是矩阵还是数值?

    高斯分布和正态分布的关系?

    为什么用高斯分布来表征?因为偏离均值特别多的值很少出现

4.高斯分布与多元高斯分布的数学表现形式

高斯分布

p(\varepsilon )=\frac{1}{\sqrt[2]{2\pi }\varepsilon }exp(-(\varepsilon -0)^{2}/2\sigma^{^{^{2}}}))

\varepsilon是均值

\sigma是方差

5.多元高斯分布

线性回归误差的高斯分布

得到线性回归误差的高斯分布是

        p(y|x;θ)越大越好

 6.似然函数

似然函数有什么用?就是描述什么样的参数和特征值组合后是真实值,所以似然函数都是越大越好

为什么似然函数是连乘的形式?因为默认误差是独立同分布的,所以联合概率分布是可以拆成各自概率分布连乘

        

猜你喜欢

转载自blog.csdn.net/weixin_45955767/article/details/121169223