【笔记】BN：加速网络的收敛速度；防止梯度爆炸和梯度消失；防止过拟合 - 代码天地

【笔记】BN：加速网络的收敛速度；防止梯度爆炸和梯度消失；防止过拟合

其他 2021-11-20 02:17:24 阅读次数: 0

Pytorch代码参考自知乎[pytorch备忘录]BN操作的自实现，极其简单 - 知乎：

def batch_norm(is_training, x, gamma, beta, moving_mean, moving_var, eps=1e-5, momentum=0.9):
    if not is_training:
        x_hat = (x - moving_mean) / torch.sqrt(moving_var + eps)
    else:
        mean = x.mean(dim=0, keepdim=True).mean(dim=2, keepdim=True).mean(dim=3, keepdim=True)
        var = ((x - mean) ** 2).mean(dim=0, keepdim=True).mean(dim=2, keepdim=True).mean(dim=3, keepdim=True)

        x_hat = (x - mean) / torch.sqrt(var + eps)
        moving_mean = momentum * moving_mean + (1.0 - momentum) * mean
        moving_var = momentum * moving_var + (1.0 - momentum) * var
    Y = gamma * x_hat + beta
    return Y, moving_mean, moving_var
    
class BatchNorm2d(nn.Module):
    def __init__(self, num_features):
        super(BatchNorm2d, self).__init__()
        shape = (1, num_features, 1, 1)
        self.gamma = nn.Parameter(torch.ones(shape))
        self.beta = nn.Parameter(torch.zeros(shape))
        self.register_buffer('moving_mean', torch.zeros(shape))
        self.register_buffer('moving_var', torch.ones(shape))

    def forward(self, x):
        if self.moving_mean.device != x.device:
            self.moving_mean = self.moving_mean.to(x.device)
            self.moving_var = self.moving_var.to(x.device)
            
        y, self.moving_mean, self.moving_var = batch_norm(self.training,
            x, self.gamma, self.beta, self.moving_mean,
            self.moving_var, eps=1e-5, momentum=0.9)
        return y

猜你喜欢

转载自blog.csdn.net/nyist_yangguang/article/details/121049071

【笔记】BN：加速网络的收敛速度；防止梯度爆炸和梯度消失；防止过拟合

深度学习-------过拟合和欠拟合，梯度消失和梯度爆炸，优化器

深度学习之如何防止梯度爆炸/梯度消失?

学习笔记：梯度爆炸和梯度消失

网络退化、过拟合、梯度消散/爆炸

《动手学——循环神经网络进阶、梯度消失、梯度爆炸以及Kaggle房价预测、过拟合、欠拟合及其解决方案》笔记

ElitesAI·动手学深度学习PyTorch版学习笔记-过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

《动手学深度学习》笔记 Task03：过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶（1天）

过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

过拟合、欠拟合及其解决方案 & 梯度消失、梯度爆炸 & 循环神经网络进阶

Task03：过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

深度学习基础3——过拟合欠拟合、梯度消失与梯度爆炸、常见循环神经网络

梯度消失、梯度爆炸笔记

梯度爆炸和梯度消失

抑梯度异常初始化参数（防止梯度消失和梯度爆炸）

欠拟合、过拟合、梯度爆炸、梯度消失等问题的原因与大概解决方法

动手学深度学习-Pytorch 版过拟合欠拟合以及梯度消失梯度爆炸

梯度消失与梯度爆炸

梯度消失 + 梯度爆炸

梯度消失&&梯度爆炸

梯度爆炸与梯度消失

梯度消失&梯度爆炸

梯度消失，梯度爆炸

梯度消失或梯度爆炸

梯度消失、梯度爆炸

梯度消失梯度爆炸

【深度学习笔记】梯度消失与梯度爆炸

梯度爆炸、消失（笔记整理）

深度学习-梯度爆炸和梯度消失

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)