Learn note03--error and Gradient Decent

其他 2021-11-25 08:30:58 阅读次数: 0

Learn note03–error and Gradient Descent

1. Bias and Variance

If large Bias, underfitting, need desin more complex model, add feature;
If large variance, overfitting, need more data, regularization.
Two ways:
Cross validation
N-fold cross validation

2. Gradient Descent

2.1 Tuning your learning rates

Adaptive Learning Rates
Popular & Simple Idea: Reduce the learning rate by some factor every few epochs
Adagrad
Divide the learning rate of each parameter by the root mean square of its previous derivatives. Like:
Vanilla Gradient descent: larger gradient, larger step.
Adagrad: root mean square of the previous derivatives of parameter w.

2.2 Stochastic Gradient Descent——Make the Training Faster

Loss for only one example, update for each example.

2.3 Feature Scaling

Make different features have the same scaling.

2.4 Gradient Descent Theory

Each time we update the parameters, we obtain O that makes L(O) smaller.

2.5 Warning of Math

Formal derivation
Taylor Series
More Limitation of Gradient Descent: stuck at local minima , stuck at saddle point, very slow at the plateau.

猜你喜欢

转载自blog.csdn.net/minovophy/article/details/118833388

Learn note03--error and Gradient Decent

Gradient Decent

梯度下降（Gradient Decent）与随机梯度下降（Stochastic Gradient Decent）

李宏毅机器学习笔记-04 Gradient Decent

04_TrainingModels_04_gradient decent with early stopping for softmax regression

Learning to learn by gradient descent by gradient descent 笔记

梯度下降法（Gradient decent）以及在线性回归的假设——机器学习

深度学习初探/01-回归问题/1-梯度下降算法Gradient Decent

（2017 ICML）Learning to learn without gradient descent by gradient descent笔记

吴恩达机器学习作业（一）单变量线性回归 / Batch gradient decent（人口和利润数据）

【笔记】论文阅读 | Learning to learn using gradient descent

Meta learning paper(一)：Learning to learn by gradient descent by gradient descent (Nips2016)

maven learn note (01)

[Learn Note] MSBuild

[Learn Note]Assembly Manifest

Gradient Tree Boosting (GBM, GBRT, GBDT, MART)算法解析和基于XGBoost/Scikit-learn的实现

Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers

Learn note2——Regression

【六级单词】decent

Python Learn day03

Learn Orleans 03 - 无锁

learn

[Learn Note]2012-01-29

[Learn Note] Java Script Guide Line

Learn note07 -- ML/DL Summary

Learn note06--Convolutional Neural Network

Learn Note05--Neural Network Training

「Deep Learning」Note on SGDR: Stochastic Gradient Descent with Warm Restarts

lab-03-X-minimizing_cost_tf_gradient

【吴恩达机器学习学习笔记03】Gradient Descent

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)