《nlp入门+实战：第三章：梯度下降和反向传播》

业界资讯 2022-08-16 04:23:11 阅读次数: 0

文章目录

1.梯度是什么？
2.偏导的计算
- 2.1 常见的导数计算
- 2.2 多元函数求偏导
3.反向传播算法

上一篇：《nlp入门+实战：第二章：pytorch的入门使用》

1.梯度是什么？

梯度:是一个向量，导数+变化最快的方向(学习参数的前进方向)

回顾机器学习

收集数据x。构建机器学习模型f，得到
$f(x,w)=Y_{predict}$
也就是说通过我们的模型计算之后会得到一系列的预测值

判断模型好坏的方法:
$loss=(Y_{predict}-Y_{true})^2 ->回归损失\\ loss=Y_{true}*log(Y_{predict}) ->分类损失$
目标:通过调整(学习)参数w，尽可能的降低loss。那么我们该如何调整w呢?
在这里插入图片描述

随机选择一个起始点W0,证过调整W0，让loss函数取到最小值。
在这里插入图片描述

w的更新方法：
1.计算w的梯度（导数）
$\Delta w=\frac{f(w+0.0000001)-f(w-0.0000001)}{2*0.0000001}$
2.更新w
$w=w-\alpha \Delta w$
其中：

△w<0，意味着w将增大
△w>0，意味着w将减小

总结:梯度就是多元函数参数的变化趋势（参数学习的方向)，只有一个自变量时称为导数，多元的话就是偏导数。

2.偏导的计算

2.1 常见的导数计算

在这里插入图片描述

2.2 多元函数求偏导

在这里插入图片描述

3.反向传播算法

3.1 计算图和反向传播

计算图:通过图的方式来描述函数的图形

如J(a,b,c) = 3(a + bc),令u=a+v,v=bc,则有J(u)=3u

把它绘制成计算图可以表示为
在这里插入图片描述

绘制成计算图之后，可以清楚的看到向前计算的过程

之后对每个节点求偏导，可有：
在这里插入图片描述

对于反向传播，因为我们最终要求的是

J对a的偏导
J对b的偏导
J对c的偏导

但是我们直接对a,b,c求偏导是没办法的，所以，根据上图，我们可以看出反向传播的过程就是一个从右往左的过程，自变量(a, b, c)各自的偏导就是连线上的梯度的乘积:
$\frac{dJ}{du}=3$
$\frac{dJ}{db}=\frac{dJ}{du}*\frac{du}{dv}*\frac{dv}{db}=3*1*c$

$\frac{dJ}{dc}=\frac{dJ}{du}*\frac{du}{dv}*\frac{dv}{dc}=3*1*b$

3.2 神经网络中的反向传播

3.2.1 神经网络的示意图

w1,w2,…,wn表示网络第n层权重
wn[i,j]表示第n层第i个神经元，连接到第n+1层第j个神经元的权重。
在这里插入图片描述

如：w3[2,1]：表示第三层的第二个神经元到第四层的第一个神经元的权重

3.2.2 神经网络的计算图

在这里插入图片描述

其中：

△out：是根据损失函数对预测值进行求导得到的结果
f函数：可以理解为激活函数

加入我们要求△out对w1[1,2]的偏导，可以看到下图
在这里插入图片描述

从w1[1,2]到△out有两个路径，分别是红色线和蓝色线，所以我们只需对绿色框内的两条路径乘积相加之后再与绿色框外面路径值相乘即可，结果如下：
在这里插入图片描述

公式分为两部分:

1.括号外:左边红线部分
2.括号内
- 1.加号左边:右边红线部分
- 2加号右边:蓝线部分

但是这样做，当模型很大的时候，计算量非常大

所以反向传播的思想就是对其中的某一个参数单独求梯度，之后更新，如下图所示:
在这里插入图片描述

计算过程如下：
在这里插入图片描述

更新参数之和继续反向传播
在这里插入图片描述

计算过程如下：
在这里插入图片描述

继续反向传播
在这里插入图片描述

计算过程如下：
在这里插入图片描述

以上过程就是对下面公式的拆解：
在这里插入图片描述

我们在去思考一下，我们反向传播的时候需要我们向前传播过程中计算出的结果，所以我们需要保留向前传播的痕迹，这一点在pytorch中将会有所体现。

下一篇：《nlp入门+实战：第四章：使用pytorch手动实现线性回归》

猜你喜欢

转载自blog.csdn.net/zhiyikeji/article/details/125978333

《nlp入门+实战：第三章：梯度下降和反向传播》

梯度下降和反向传播

python入门到实战--第三章

springboot实战第三章

【学习笔记】西瓜书机器学习之第三章：梯度下降和牛顿拉弗森法下的逻辑回归（一）

梯度下降与反向传播

tensorflow入门---第三章

【JanusGraph】第三章：入门

第三章查询入门

梯度下降和反向传播的理解

数值分析--第三章--共轭梯度法

《Go语言从入门到进阶实战》学习笔记：第三章容器

最新python入门基础及实战第三章 if分支与循环

《Elasticsearch核心技术与实战》笔记 -- 第三章：ElasticSearch 入门（2）

《Elasticsearch核心技术与实战》笔记 -- 第三章：ElasticSearch 入门（3）

【SpringMVC从入门到实战教程】第三章 SpringMVC 注解开发

【shiro从入门到实战教程】第三章 Shiro基础

【Spring从入门到实战教程】第三章 Spring AOP详解

【Mybatis从入门到实战教程】第三章 Mybatis 核心配置文件详解

从梯度下降到反向传播

反向传播与梯度下降的疑问

第三章

Hibernate实战学习(第三章)

java并发编程实战第三章笔记

Java8实战学习（第三章）

Redis实战：第三章-redis命令练习

《java并发编程实战》第三章

Kotlin详解：第三章，实战

SpringCloud—— 第三章：SpringBoot实战

第三章实战演习

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)