梯度下降法理论与实践 - 代码天地

梯度下降法理论与实践

编程语言 2019-03-06 14:54:07 阅读次数: 0

版权声明：本文为博主原创文章，未经允许不得转载！ https://blog.csdn.net/qq_27590277/article/details/88221912

声明：下文中代码实现以上的图片来自2014stanford机器学习视频

理论基础

现在比如有两个参数的损失函数

我们的目的是使之最小也就是得到能够使J函数最小的，，公示表示为：

我们画出当取不同值时J的变化图是这样的

颜色越深代表J值越大。

我们比如随便取一个点(,各等于某值时)，此点如图所示：

此时比如我们站在此点上，想要快速到达谷底(也就是使J函数达到极小值)。此时我们放眼望去，环望四周，很自然的向此时坡最陡的方向的下方迈上一步，接着在继续重复我们的过程，直到四周都比当下高 (此时)为止，就是走到谷底(J函数达到极小值)，完成目标。

我们来看看我们的路线

这时会不会有人问为什么会是极小值。

这时我们重新找一个点

跟上面的过程一样，我们再走一遍

你瞅瞅，是不是到达另一个谷底。所以说，这种方法找的是局部的最小值，也就是全局的极小值。这种方法就是梯度下降算法。

此时介绍梯度下降算法，简单起见，我们从一个变量开始，比如此时我们的损失函数J()是

随机给取一个值，此点如上图所示。对此点求导：

此时的导数值为正数，我们要向它的相反方向走一步，到达如图所示点

此时的公式表达为：

为learning rate 即学习率，这里表示用来控制步伐的大小，取值范围 (0-1] (一般取值1，0.1，0.01，0.001... 也或者0.3，0.03，0.003...根据情况而定)。

不断的重复上面公式的过程，直到等于0或者特别小(多小，根据实际情况设定)停止。

我们再考虑随机点在左边的情况。比如取点如图所示：

此时的J在点的导数为负数。

此时我们应该向右走，则此时的表达式为

更新后

跟上面的过程一样，直到更新到导数为0或特别小为止。

由此可见，无论导数正负，表达式一样。所以我们规定梯度下降算法的更新过程就是

此时我们具体谈谈：

取值过小，则会有这样的情况：

到达极小值的速度特别慢。

而取值过大，则还会有这种情况：

永远找不到极小值。

所以如果你想在上做优化，可以这样

在坡度大的时候取大值小的时候取小值。(根据实验情况而定)

现在我们再回归到我们的函数中来。

我们对它进行优化的表达式为：

（这里是偏导）

这里有个误区，正确的更新过程是这样的：

等更新完再赋值。

下面的做法是错误的：

更新完的在temp1的更新过程中被调用，此时已经不是之前的了。切记。

代码实践

这是个拟合直线的代码实现。

我们要将数据统一收缩到 [-1 - 1] 之间。

X = ( X - average(X) ) / X.max

Y = ( Y - average(Y) ) / Y.max

为什么要这么做呢？

因为如果不做缩小处理，在矩阵运算时，非常有可能出现无穷大或者无穷小，导致无法计算。
缩小处理可以很容易画出模拟线条。
缩小处理在计算机中处理速度更快。

我们看看图：

这里我设置a = 0.01是为了下面的模拟直线除数不为0设置的。一般情况下，初始化 a = b = 0。(这里a, b就是上面的)

下面进行矩阵化：

上面图片的y1 - y4是预测值

下面代码的Y是真实值

预测值函数

拟合线段形成过程

更新过程

最终的线段是

更多精彩内容，请关注 深度学习自然语言处理 公众号，就是下方啦！跟随小博主，每天进步一丢丢！哈哈！

猜你喜欢

转载自blog.csdn.net/qq_27590277/article/details/88221912

梯度下降法理论与实践

梯度下降法更新权值理论

梯度下降法及其理论基础

梯度与梯度下降法

梯度下降法总结

最速梯度下降法

梯度下降法

梯度下降法——专题

理解梯度下降法

梯度下降法详解

关于梯度下降法

梯度下降法描述

AI 梯度下降法

梯度下降法总结

梯度下降法(GradientDecsent)

多元梯度下降法

梯度下降法深入

梯度下降法实例

［笔记］梯度下降法

浅谈梯度下降法

梯度下降法小结

梯度下降法（转）

梯度下降法的问题

Adam梯度下降法

RMSprop梯度下降法

momentum梯度下降法

什么是梯度下降法？

梯度下降法（下）

梯度下降法（上）

笔记-梯度下降法

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)