CS 231n 学习笔记 04——课程3.2 参数优化（Optimization） - 代码天地

CS 231n 学习笔记 04——课程3.2 参数优化（Optimization）

其他 2018-05-05 14:00:08 阅读次数: 5

机器学习模型的创建就如同在一个山谷里漫步，我们的平面坐标就是模型，我们的海拔就是损失函数值。我们希望找到一个最优的模型使得损失最小，即找到这个山谷的最低点。

我们有以下几种策略：

策略1：随机选坐标，试Loss值

　　不解释，显然很差。

策略2：如同在山谷中下山一样，顺着斜坡往下走

　　自然地引出了导数的概念：只要沿着导数方向调整模型，即可获得朝着最优下降方向下降的损失值。（局部最优暂时不提）

　　在多维函数里，导数变为梯度（Gradiant），由微积分知识，可导函数梯度最大的相反方向即为函数值下降最快的方向。

　　所以沿着梯度的方向不断按固定步长调整模型值，即可逐渐趋近一个最优的模型。

　　对于一个模型如向量W：

上面采用对每一个参数微调求得相应梯度的方法，然而此方法极差，因为一个W可以有成千上万的维度，若求成千上万次才最终对模型进行一步的微调，效率可见会极低。

更换思路：既然损失函数也是一个函数，我们可以采用微积分的思想，直接寻找该损失函数对于模型W每一个维度的梯度计算公式，计算梯度时直接代值，计算速度会快很多。

注：实际操作中总是使用公式法（解析法）计算梯度，然而在调试中检查计算梯度的公式是否正确时时可以采用分段数值法进行debug。

梯度下降法优化的代码如下:

step_size是一个超参数（调试时最先修改的参数），2式取负号是因为梯度计算公式是算的梯度最大的方向，按梯度下降的方向是其反方向。

另外，损失函数是一个求和均值，所以损失函数的梯度也是一个均值表达式。

实际中的数据量N可能非常大以至于无法用所有数据来进行梯度计算，所以可以采用随机抽样法，抽取固定数量的数据作为数据集（如256个）

猜你喜欢

转载自www.cnblogs.com/CaptainLL/p/8994543.html

CS 231n 学习笔记 04——课程3.2 参数优化（Optimization）

CS 231n 学习笔记 03——课程3.1 损失函数

CS 231n 学习笔记 05——课程4.1 神经网络入门之：反向传播

CS231n课程笔记：最优化笔记（下）

cs231_n3.2优化

CS231n 优化 optimization

CS231n课程笔记：Leture3 Loss Functions and Optimization

斯坦福CS231n深度学习与计算机视觉课程学习笔记（3）——Loss Functions and Optimization

【cs231n】最优化笔记

cs231n笔记：最优化

CNN笔记（CS231N）——损失函数与优化（Loss Functions and Optimization）

CS231n笔记 Lecture 3 Loss Functions and Optimization

cs231n 学习 -- Lecture 3 Loss Functions and Optimization

CS231n课程笔记5.4：超参数的选择&交叉验证

cs231n学习笔记-激活函数-BN-参数优化

CS231n课程笔记翻译：反向传播笔记

CS231n课程笔记：图像分类笔记（上）

CS231n课程笔记：图像分类笔记（下）

深度学习-超参数和交叉验证 CS231n课程笔记5.4：超参数的选择&交叉验证 CS231n作业笔记1.7：基于特征的图像分类之调参

CS231n课程笔记翻译：Python Numpy教程

cs231n课程笔记--激活函数

CS231n课程笔记---卷积和池化

Stanford cs231n 学习笔记（2）SVM、Loss Function、Optimization

cs231n学习笔记-lecture3（Loss Functions and Optimization）

CS231n Lecture3-Loss Functions and Optimization学习笔记

cs231n笔记-超参数优选

cs231n笔记01：线性分类、最优化

CS231n——机器学习算法——最优化

cs231n笔记

【cs231n学习笔记】——— KNN

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)