《动手学深度学习 Pytorch版》 4.8 数值稳定性和模型初始化

其他 2023-09-18 18:04:12 阅读次数: 0

4.8.1 梯度消失和梯度爆炸

整节理论，详见书本。

梯度消失

%matplotlib inline
import torch
from d2l import torch as d2l

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.sigmoid(x)
y.backward(torch.ones_like(x))

d2l.plot(x.detach().numpy(), [y.detach().numpy(), x.grad.numpy()],
         legend=['sigmoid', 'gradient'], figsize=(4.5, 2.5))

# 可以观察到当 sigmoid 函数的输入极大或极小时梯度会消失。

在这里插入图片描述

梯度爆炸

M = torch.normal(0, 1, size=(4,4))
print('一个矩阵\n', M)
for i in range(100):
    M = torch.mm(M, torch.normal(0, 1, size=(4, 4)))

print('乘以100个矩阵后\n', M)

一个矩阵
 tensor([[-0.0548,  0.0265,  0.4826, -2.4794],
        [ 2.0281,  1.1197,  1.7950,  0.1482],
        [ 2.5176,  0.5329, -1.8411, -0.3951],
        [-0.4566, -0.1391, -1.1882,  0.0556]])
乘以100个矩阵后
 tensor([[-4.8657e+18, -7.5395e+18, -3.0949e+18,  1.2648e+18],
        [ 9.8213e+21,  1.1332e+22,  3.4642e+21, -7.3061e+21],
        [-6.0221e+21, -6.9359e+21, -2.1151e+21,  4.4953e+21],
        [-5.1453e+21, -5.9341e+21, -1.8129e+21,  3.8310e+21]])

4.8.2 参数初始化

整节理论，详见书本。

练习

（1）除了多层感知机的排列具有对称性之外，还能设计出其他神经网络可能会表现出对称性且需要被打破的情况吗？

不会，略。

（2）我们是否可以将线性回归或 softmax 回归中的所有参数初始化为相同的值？

会因永远无法打破对称性而永远无法实现网络的表达能力。

（3）在相关资料中查找两个矩阵乘积特征值的解析解。这对确保梯度条件合适有什么启示？

不会，略。

（4）如果我们知道某些项是发散的，我们能在事后修正吗？可以参考关于按层自适应速率缩放的论文。

“某些项是发散的”没看明白，不会，略。

猜你喜欢

转载自blog.csdn.net/qq_43941037/article/details/132863644

《动手学深度学习 Pytorch版》 4.8 数值稳定性和模型初始化

数值稳定性梯度爆炸梯度消失 + 模型初始化和激活函数动手学深度学习v2 pytorch

动手学深度学习学习笔记tf2.0版（3.15 数值稳定性和模型初始化）

从头学pytorch(八):数值稳定性和模型参数初始化

动手学深度学习V2.0(Pytorch)——14. 数值稳定性/模型初始化/激活函数

[动手学深度学习(PyTorch)]——数值稳定性

动手深度学习16- 深度学习的数值稳定性和模型初始化

《动手学深度学习 Pytorch版》 5.3 延后初始化

【动手学深度学习v2李沐】学习笔记09：数值稳定性、模型初始化、激活函数

《动手学深度学习 Pytorch版》 4.4 模型选择、欠拟合和过拟合

CNN模型-《动手学深度学习pytorch》

动手学深度学习(PyTorch实现)(十一)--GoogLeNet模型

动手学深度学习(PyTorch实现)(十)--NiN模型

动手学深度学习(PyTorch实现)(九)--VGGNet模型

动手学深度学习(PyTorch实现)(八)--AlexNet模型

动手学深度学习(PyTorch实现)(七)--LeNet模型

动手学深度学习(PyTorch实现)(十三)--ResNet模型

《动手学深度学习》 pytorch版-Tensor和NumPy相互转换

《动手学深度学习 Pytorch版》 6.3 填充和步幅

《动手学深度学习 Pytorch版》 4.7 前向传播、反向传播和计算图

【AI】《动手学-深度学习-PyTorch版》笔记（十五）：网络中的层、块和参数

《动手学深度学习 Pytorch版》 5.1 层和块

《动手学深度学习 Pytorch版》 4.9 环境和分布偏移

动手学深度学习学习笔记tf2.0版（4.2 模型参数的访问、初始化和共享）

动手学深度学习5.2 PyTorch教程参数初始化

机器学习（ML）八之正向传播、反向传播和计算图，及数值稳定性和模型初始化

ElitesAI·动手学深度学习PyTorch版学习笔记-文本预处理；语言模型；循环神经网络基础

ElitesAI·动手学深度学习PyTorch版学习笔记-线性回归；Softmax与分类模型、多层感知机

动手学深度学习PyTorch版--Task1--线性回归；Softmax与分类模型、多层感知机

【AI】《动手学-深度学习-PyTorch版》笔记（十九）：卷积神经网络模型（GoogLeNet、ResNet、DenseNet）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)