梯度下降求解过程

线性回归

机器学习按目标函数进行迭代，使目标函数结果接近最小值
梯度下降，目标函数：
$\displaystyle J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m\big(h_\theta(x_i)-y_i\big)$

批量梯度下降： $\displaystyle \frac{\partial{J(\theta)}}{\partial{\theta_j}}=-\frac{1}{m}\sum_{i=1}^m(y_i-h_\theta(x_i))x_{ij}$

$\theta_j'=\theta_j+\frac{1}{m}\sum_{i=1}^m(y_i-h_\theta(x_i))x_{ij}$
批量梯度下降使用所有样本，速度很慢，容易得到最优解

随机梯度下降： $\theta_j'=\theta_j+(y_i-h_\theta(x_i))x_{ij}$
每次找一个样本，迭代速度快，但不一定每次都朝着收敛的方向

小批量梯度下降法： $\theta_j'=\theta-\alpha\frac{1}{10}\sum_{k=i}^{i+9}(h_\theta(x_k)-y_k)x_{kj}$
每次更新选择一小部分数据迭代，以上两种方式结合

逻辑回归

分类数据的回归分析Logistic regression
Sigmoid函数： $g(z)=\frac{1}{1+e^{-z}}$
自变量取值为任意实数，值域[0，1]
将实数域内的值，映射到了0-1区间，完成了由值到概率的转换

预测函数： $h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$

其中函数：
$\theta_0+\theta_1x_1+,\cdots,+\theta_nx_n=\displaystyle \sum_{i=1}^n\theta_ix_i=\theta^Tx$

分类任务： $\begin{aligned} p(y=1|x;\theta)&=h_\theta(x)&\cdots①\\p(y=0|x;\theta)&=1-h_\theta(x) &\cdots②\\p(y|x;\theta)&=(h_\theta(x))^y(1-h_\theta(x))^{1-y}&\cdots③\end{aligned}$
二分类任务1，2 整合为3

似然函数： $L(\theta)=\prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m(h_\theta(x_i))^{y_i}(1-h_\theta(x_i))^{1-y_i}$

对数似然： $l(\theta)=logL(\theta)=\sum_{i=1}^m\bigg(y_ilogh_\theta(x_i)+(1-y_i)log(1-h_\theta(x_i))\bigg)$

引入函数： $J(\theta)=-\frac{1}{m}l(\theta)$ 求解 $J(\theta)$ 的最小值

求解过程：
$\begin{aligned}l(\theta)=logL(\theta)&=\sum_{i=1}^m\bigg(y_ilogh_\theta(x_i)+log(1-h_\theta(x_i))\bigg)\\ \frac{\partial J(\theta)}{\partial_{\theta_j}}&=-\frac{1}{m}\sum_{i=1}^m\bigg(y_i\frac{1}{h_\theta(x_i)}\frac{\partial}{\partial_{\theta_j}}h_\theta(x_i)-(1-y_i)\frac{1}{1-h_\theta(x_i)}\frac{\partial}{\partial_{\theta_j}}h_\theta(x_i)\bigg)\\ &=-\frac{1}{m}\sum_{i=1}^m\bigg(y_i\frac{1}{g(\theta^Tx_i)}-(1-y_i)\frac{1}{1-g(\theta^x_i)}\bigg)\frac{\partial}{\partial_{\theta_j}}g(\theta^Tx_i)\\ &=-\frac{1}{m}\sum_{i=1}^m\bigg(y_i\frac{1}{g(\theta^Tx_i)}-(1-y_i)\frac{1}{1-g(\theta^Tx_i)}\bigg)g(\theta^Tx_i)(1-g(\theta^Tx_i))\frac{\partial}{\partial\theta_j}\theta^Tx_i\\ &=-\frac{1}{m}\sum_{i=1}^m\bigg(y_i(1-g(\theta^Tx_i))-(1-y_i)g(\theta^Tx_i)\bigg)x_{i}^j\\ &=-\frac{1}{m}\sum_{i=1}^m\big(y_i-g(\theta^Tx_i)\big)x_i^j\\ &=\frac{1}{m}\sum_{i=1}{m}\big(h_\theta(x_i)-y_i\big)x_i^j \end{aligned}$

逻辑回归参数更新：
$\theta_j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j$

梯度下降求解

线性回归

逻辑回归

猜你喜欢