MachineLearningWu_4_GradientDescent - 代码天地

MachineLearningWu_4_GradientDescent

企业开发 2023-08-01 22:37:12 阅读次数: 0

我们在上一个章节中学习了损失函数，我们的最终目的是要求得损失函数最小化的weight和bias，那么如何做到这一点呢，我们引入梯度下降算法，

请添加图片描述

请注意，对于Linear Regression + MSE，你得到的J(w, b)和w, b的图必然是一个如大碗状的凸函数，而策略Gradient Descent只是决定你该如何下降到这个最低点。但是对于别的模型，你的损失函数图可能会存在多个局部最优点，你会去往哪个最低点，这往往取决于你的起始点（权重初始化）和baby-step大小（learning rate），如下，

请添加图片描述

我们将上面的下降过程通过数学表达式的方式来呈现，我们的结果如下，偏微分部分决定了下降方向，alpha决定了步子的大小。需要注意到是，我们的W和b是同步更新的，即在计算b时我们使用的是未更新的W。

请添加图片描述

为了对GD中的偏导数有一个更直观的理解，我们同样将bias=0，然后观察weight在GD中的变化，我们发现初始点不论是在最低点的左侧或者右侧，GD算法都很好地做到了他应该做的事情：将J(W)下降到最小。

请添加图片描述

接下来我们将重点探讨一下Learning Rate学习率带来的变化。如果Learing rate选取的太小，那么收敛地会很慢；如果Learning rate选取的太大，那么可能会fail to converge无法收敛，

请添加图片描述

而局部最优解的存在更是破坏性的，这会使得你的导数在局部最优解时无法进行移动，始终保持在局部最优解。

扫描二维码关注公众号，回复： 16016500 查看本文章

请添加图片描述

接下来我们将会把上面学习到的知识全部结合起来，即我们使用Linear R的model，使用MSE的策略，使用Grandient D的算法。

请添加图片描述

在Gradient D中我们需要求取偏导，对于w和b的偏微分的求取过程如下，

请添加图片描述

当我们采用Linear R作为模型，而使用MSE作为策略时，我们的J函数永远都是Convex func，如下，

请添加图片描述

而整个梯度下降法的拟合过程如下所示，

请添加图片描述

但是往往我们并不会选取全部的数据进行训练，我们会使用一个Batch的数据进行训练，于是有了BGD或者mini-BGD，如下，

请添加图片描述

猜你喜欢

转载自blog.csdn.net/qq_43369406/article/details/131597667

MachineLearningWu_4_GradientDescent

MachineLearningWu_13_AGI

MachineLearningWu_10_NeuralNetwork

MachineLearningWu_9_overfitting

MachineLearningWu_6_FeatureScaling

MachineLearningWu_5_MultipleLinearRegression

MachineLearningWu_3_LinearRegression

MachineLearningWu_12_BuildNNUsingNumpyOrTF

MachineLearningWu_11_NeuralNetworkLayer

TensorFlow 常用优化器：GradientDescent、Momentum、Adam

MachineLearningWu_7+8_LogisticRegression/Classification

MachineLearningWu_13/P60-P64_Tensorflow

MachineLearningWu_16/P72-P77_Diagnostic

MachineLearningWu_15/P70-P71_AdamAndConv

MachineLearningWu_17/P78-P83_UsingBiasAndVarianceToDiagnose

MachineLearningWu_14/P65-P69_Multiclass

tensorflow中实现自动、手动梯度下降：GradientDescent、Momentum、Adagrad

C++GradientDescent深入探索：梯度下降算法的实现原理和应用

吴恩达 Machine Learning 第一周 GradientDescent 带图解析

吴恩达的机器学习编程作业 2.gradientDescent 线性回归迭代计算代价函数及特征变量

4

-------4

(4)

4则

4/4

QT 4-4

Angular 4 + Webpack 4

4、4种引用

No4.Week 4

PTA4-4

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)