机器学习算法第二篇

本文目内容:梯度下降法算法推导
本文基于多元线性回归
数学核心向

一逻辑推演

有数据Data( 上标为列号,下标为行号)
$\begin{bmatrix} x_1^1 & x_2^1 \quad ...&x_n^1& y^1 \\ x_1^2 & x_2^2 \quad...&x_n^2& y^2\\ x_1^3 & x_2^3 \quad...&x_n^3& y^3 \\ . & . \quad...& .& . \\ . & . \quad...& .& . \\ x_1^m & x_2^m \quad...&x_n^m& y^m \\ \end{bmatrix}$
$令x\_data =\begin{bmatrix} x_1^1 & x_2^1 \quad ...&x_n^1\\ x_1^2 & x_2^2 \quad...&x_n^2\\ x_1^3 & x_2^3 \quad...&x_n^3 \\ . & . \quad...& . \\ . & . \quad...& .\\ x_1^m & x_2^m \quad...&x_n^m\\ \end{bmatrix}$
$令y\_data =\begin{bmatrix} y^1 \\ y^2\\ y^3 \\ . \\ . \\ y^m \\ \end{bmatrix}$
设回归线 $h_\theta(x)$ : $\theta_1x_1+\theta_2x_2 +...+\theta_nx_n=0$
任意点 $P(x_1,x_2...x_n)$ 带入该式可得到点P到回归线的距离d
线性回归的目标为:求合适的参数 $(\theta_1,\theta_2...\theta_n)$ 组成的超平面 $h_\theta(x)$
使得众测试点带入该式后所得的值(误差)的平方和最小

即 : $\min (\sum d^2)$
即 :拟合度最高

根据3式构建代价函数 costfunction
$J(\theta_1,\theta_2...\theta_n)=\frac{1}{2m}\sum_{i=1}^m (h_\theta(x^i)-y^i)^2$
该函数表示训练集所有的m个点带入后距离回归线的距离的平方和
函数结构观念调整: 在训练阶段, 代价函数的x 与y 都是已知量 $\theta$ 为变量量
因此3式所述的目标等价于求函数 $J(\theta_1,\theta_2...\theta_n)$ 的值取最小值时候的变量 $(\theta_1,\theta_2...\theta_n)$

二梯度下降法:

概念:
通过将各变量 $(\theta_1,\theta_2...\theta_n)$ 不断朝函数取得极值时的变量 $(\omega_1,\omega_2...\omega_n)$ 方向靠拢,从而获得代价函数取最小值时候的各 $(\theta_1,\theta_2...\theta_n)$ 参数

方法一:

方法一更易于理解,但计算复杂度较高,求导难度大

$\$

对变量 $(\theta_1,\theta_2...\theta_n)$ 进行初始随机赋值
$\theta_1=1, \\ \theta_1=5,\\ \theta_3=0.5,\\ \theta_n=10$

$\$
2. 对函数的表达式的逐个变量 $(\theta_1,\theta_2...\theta_n)$ 求偏导,得到 $∇J(\theta_1,\theta_2...\theta_n)=\left(\frac{\partial f}{\partial\theta_1},\frac{\partial f}{\partial\theta_2},\frac{\partial f}{\partial\theta_3}...\frac{\partial f}{\partial\theta_i}\right)$

$\frac{\partial f}{\partial\theta_1}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x^i)-y^i\right)x_1^i \\ \frac{\partial f}{\partial\theta_2}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x^i)-y^i\right)x_2^i\\ ...\\...\\ \frac{\partial f}{\partial\theta_n}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x^i)-y^i\right)x_n^i$
$\$

设定学习率控制每次迭代变量的移动距离
$lR=0.001,该参数为示例,应按照实际情况调整$
$\$
分别对每个变量进行迭代
$\theta_1=\theta_1-lR\frac{\partial f}{\partial\theta_1}\\\theta_2=\theta_2-lR\frac{\partial f}{\partial\theta_2}\\\theta_3=\theta_3-lR\frac{\partial f}{\partial\theta_3}\\...\\...\\\theta_m=\theta_m-lR\frac{\partial f}{\partial\theta_m1}$
$\$

5.重复第四步到足够次数,可得到距离代价函数取最小值时候的变量 $(\omega_1,\omega_2...\omega_n)$ 极为接近的变量 $(\theta_1,\theta_2...\theta_n)$

方法二

方法二:将代价函数矩阵化,从而极大化简计算复杂度和求导复杂度

子式矩阵化

$\theta= \begin{bmatrix} \theta_1 \\ \theta_2\\ \theta_3 \\ . \\ . \\ \theta_m \\ \end{bmatrix}$
$J(\theta_1,\theta_2...\theta_n) \Rightarrow J(\theta)$
$y^i\Rightarrow Y=y\_data=\begin{bmatrix} y^1 \\ y^2\\ y^3 \\ . \\ . \\ y^m \\ \end{bmatrix}$
$x^i\Rightarrow X=x\_data=\begin{bmatrix} x_1^1 & x_2^1 \quad ...&x_n^1\\ x_1^2 & x_2^2 \quad...&x_n^2\\ x_1^3 & x_2^3 \quad...&x_n^3\\ . & . \quad...& . \\ . & . \quad...& .\\ x_1^m & x_2^m \quad...&x_n^m\\ \end{bmatrix}$
$h_\theta(x^i)\Rightarrow \begin{bmatrix} h_\theta (x^1) \\ h_\theta (x^2) \\ h_\theta (x^3 ) \\ . \\ . \\ h_\theta (x^m) \\ \end{bmatrix}=\begin{bmatrix} \theta_1x_1^1+\theta_2x_2^1 +...+\theta_nx_n^1\\ \theta_1x_1^2+\theta_2x_2 ^2+...+\theta_nx_n^2\\ \theta_1x_1^3+\theta_2x_2 ^3+...+\theta_nx_n^3\\ \quad... . \\ \quad... .\\ \theta_1x_1^m+\theta_2x_2^m +...+\theta_nx_n^m\\ \end{bmatrix}=X \cdot \theta$
$\frac{\partial f}{\partial\theta_i}\Rightarrow ∇J(\theta)=\begin{bmatrix} \frac{\partial f}{\partial\theta_1}\\ \frac{\partial f}{\partial\theta_2}\\ \frac{\partial f}{\partial\theta_3}\\ . \\ . \\ \frac{\partial f}{\partial\theta_n}\\ \end{bmatrix}$

2.变换流程

$因为$
$\frac{\partial f}{\partial\theta_1}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x^i)-y^i\right)x_1^i \\ \frac{\partial f}{\partial\theta_2}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x^i)-y^i\right)x_2^i\\ ...\\...\\ \frac{\partial f}{\partial\theta_n}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x^i)-y^i\right)x_n^i$

$所以$
$∇J(\theta)=\begin{bmatrix} \frac{\partial f}{\partial\theta_1}\\ \frac{\partial f}{\partial\theta_2}\\ \frac{\partial f}{\partial\theta_3}\\ . \\ . \\ \frac{\partial f}{\partial\theta_n}\\ \end{bmatrix}=\begin{bmatrix} x_1^1(h_\theta(x^1)-y^1)+x_1^2(h_\theta(x^2)-y^2)+...+x_1^m(h_\theta(x^m)-y^m)\\ x_2^1(h_\theta(x^1)-y^1)+x_2^2(h_\theta(x^2)-y^2)+...+x_2^m(h_\theta(x^m)-y^m)\\ x_3^1(h_\theta(x^1)-y^1)+x_3^2(h_\theta(x^2)-y^2)+...+x_3^m(h_\theta(x^m)-y^m)\\ \quad... . \\ \quad... .\\ x_n^1(h_\theta(x^1)-y^1)+x_n^2(h_\theta(x^2)-y^2)+...+x_n^m(h_\theta(x^m)-y^m)\\ \end{bmatrix}$
$经过奇妙变换得到$
$∇J(\theta)=\begin{bmatrix} \frac{\partial f}{\partial\theta_1}\\ \frac{\partial f}{\partial\theta_2}\\ \frac{\partial f}{\partial\theta_3}\\ . \\ . \\ \frac{\partial f}{\partial\theta_n}\\ \end{bmatrix}==\begin{bmatrix} x_1^1 & x_2^1 \quad ...&x_n^1\\ x_1^2 & x_2^2 \quad...&x_n^2\\ x_1^3 & x_2^3 \quad...&x_n^3\\ . & . \quad...& . \\ . & . \quad...& .\\ x_1^m & x_2^m \quad...&x_n^m\\ \end{bmatrix}^T\begin{bmatrix} h_\theta(x^1)-y^1\\ h_\theta(x^2)-y^2\\ h_\theta(x^3-y^3\\ ...\\ h_\theta(x^m)-y^m\\ \end{bmatrix}$

$再变$

$∇J(\theta)=\begin{bmatrix} \frac{\partial f}{\partial\theta_1}\\ \frac{\partial f}{\partial\theta_2}\\ \frac{\partial f}{\partial\theta_3}\\ . \\ . \\ \frac{\partial f}{\partial\theta_n}\\ \end{bmatrix}==\begin{bmatrix} x_1^1 & x_2^1 \quad ...&x_n^1\\ x_1^2 & x_2^2 \quad...&x_n^2\\ x_1^3 & x_2^3 \quad...&x_n^3\\ . & . \quad...& . \\ . & . \quad...& .\\ x_1^m & x_2^m \quad...&x_n^m\\ \end{bmatrix}^T \left( \begin{bmatrix} h_\theta(x^1)\\ h_\theta(x^2)\\ h_\theta(x^3\\ ...\\ h_\theta(x^m)\\ \end{bmatrix}-\begin{bmatrix} y^1\\ y^2\\ y^3\\ ...\\ y^m\\ \end{bmatrix} \right)$

$代入子式们得到:$
$∇J(\theta)=X^T(X\theta-Y)$

$\$
$又因为$
$\theta_1=\theta_1-lR\frac{\partial f}{\partial\theta_1}\\\theta_2=\theta_2-lR\frac{\partial f}{\partial\theta_2}\\\theta_3=\theta_3-lR\frac{\partial f}{\partial\theta_3}\\...\\...\\\theta_m=\theta_m-lR\frac{\partial f}{\partial\theta_m1}$

$代入子式与∇J(\theta)得到最终式子:$
$\theta=\theta-LR(∇J(\theta))$
- $式子里除LR外都是向量$

$重复上式足够次数,可得到距离代价函数取最小值时候的变量(\omega_1,\omega_2...\omega_n)极为接近的变量(\theta_1,\theta_2...\theta_n)$

机器学习算法2_梯度下降法

机器学习算法第二篇

一逻辑推演

二梯度下降法:

方法一:

方法二

猜你喜欢

机器学习算法2_梯度下降法

机器学习算法第二篇

一 逻辑推演

二 梯度下降法:

方法一:

方法二

猜你喜欢

一逻辑推演

二梯度下降法: