pytorch での BatchNorm2d の実験的検証

BatchNorm2d

mean現在のbatch平均とstd現在の標準偏差である2 次元行列をバッチ正規化しますbatch。バッチ正規化を使用すると、異なる値の範囲のデータを標準正規分布の区間にマッピングして、データ間のギャップを減らし、モデルの高速収束を促進できます。バッチ正規化では、基本的にサンプル間の絶対誤差は減少しますが、相対誤差は変わりません。たとえば、[1,2,3,4]正規化の場合、数値のサイズは変化しますが、数値間の大小関係は変わりません。一般に、コンボリューション カーネルの後にバッチ正規化を実行することをお勧めします。

公式

  • 正規化式
    ここに画像の説明を挿入

  • 全局均值估计:running_mean全局方差估计:running_var
    xnew = ( 1 − 運動量 ) × xold + 運動量 × xt x_{new}=(1-運動量) \times x_{old}+運動量 \times x_{t}バツ新しい_ _=( 1瞬間) _ _ _ _ _ _ _×バツ古い_ _+瞬間_ _ _ _ _ _ _×バツ
    xnew x_{新しい}バツ新しい_ _更新されたrunning_mean/running_varxold x_{old}の場合バツ古い_ _アップデート前running_mean/running_varxt x_{t}バツ現在のバッチの場合mean和varmomentumこれは重み係数であり、一般に次のように解釈されます。0.1

  • pytorch のBatchNorm2d
    batchnorm=torch.nn.BatchNorm2d(num_features=通道的数量)
    他のパラメータを変更することはお勧めしません

BatchNorm2dの実験検証

  • 正規化式の検証
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as opti
from torchvision.transforms import RandomRotation
import torchsummary
import time
import datetime
import numpy as np
import copy
import torch.nn as nn
data=torch.tensor(
   [[[[1,2],
    [3,4]]]],dtype=torch.float32
)
batchnorm=nn.BatchNorm2d(num_features=1,momentum=0.1)
print('------------1--------------')
print("初始状态下的running_mean,running_var")
print(batchnorm.running_mean)
print(batchnorm.running_var)
print('------------2--------------')
print("输入data后状态下的running_mean,running_var")
test=batchnorm(data)
print(batchnorm.running_mean)
print(batchnorm.running_var)
print('训练状态下对data进行batchNorm')
print(test)
print('手动计算的batchNorm')
mean=torch.mean(data)
std=torch.var(data,False)
print((data[0][0]-mean)/torch.sqrt(std+1e-5))

結論として、正規化された平均と標準は現在のバッチの平均と標準です。

  • running_mean合計running_varの数式検証
print('------------3--------------')
print("人工计算的running_mean,running_var")
running_mean=torch.tensor(0)
running_var=torch.tensor(1)
running_mean=0.9*running_mean+0.1*mean
running_var=0.9*running_var+0.1*std
print(running_mean)
print(running_var)

print('测试状态下对data进行batchNorm')
batchnorm.training=False
test=batchnorm(data)
print(test)
#得出如下结论:
#running_mean=(1-momentum)*running_mean+momentum*batch_mean
#running_var=(1-momentum)*running_var+momentum*batch_var

running_mean と running_var はテストにのみ影響し、トレーニングには影響しません。テスト データは使用されrunning_meanrunning_var正規化されます。

  • 当track_running_stats=False時間への影響
print('------------4--------------')
print('track_running_stats设置为False时,输入data前得running_mean,running_var')
batchnorm=nn.BatchNorm2d(num_features=1,momentum=0.1,track_running_stats=False)
print(batchnorm.running_mean)
print(batchnorm.running_var)
print('------------5--------------')
print('track_running_stats设置为False时,输入data后得running_mean,running_var')
test=batchnorm(data)
print(batchnorm.running_mean)
print(batchnorm.running_var)
print('------------6--------------')
print('track_running_stats设置为False时,训练状态下对data进行batchnorm')
print(test)
print('------------7--------------')
print('track_running_stats设置为False时,测试状态下对data进行batchnorm')
batchnorm.training=False
test=batchnorm(data)
print(test)
#得出如下结论
#running_mean和running_var是用于对测试集进行归一化,如果track_running_stats设置为False,则测试集进行归一化时不会使用running_mean和running_var
#而是直接用自身得mean和std

track_running_statsに設定しないでくださいFalse

おすすめ

転載: blog.csdn.net/qq_33880925/article/details/130244586