分析のために古典的な初期の Pytorch 公式実装コードを選択します
https://github.com/pytorch/vision/blob/9a481d0bec2700763a799ff148fe2e083b575441/torchvision/models/resnet.py
さまざまな ResNet ネットワークは、深い残差ネットワークを構成する基本モジュールである BasicBlock またはボトルネックで構成されています
ResNet本体
ResNet のさまざまな構造のほとんどは、1 層 conv+4 ブロック + 1 層 fc です。
class ResNet(nn.Module):
def __init__(self, block, layers, zero_init_residual=False):
super(ResNet, self).__init__()
self.inplanes = 64
self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
bias=False)
self.bn1 = nn.BatchNorm2d(64)
self.relu = nn.ReLU(inplace=True)
self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
self.layer1 = self._make_layer(block, 64, layers[0])
self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
self.fc = nn.Linear(512 * block.expansion, num_classes)
for m in self.modules():
if isinstance(m, nn.Conv2d):
nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
elif isinstance(m, nn.BatchNorm2d):
nn.init.constant_(m.weight, 1)
nn.init.constant_(m.bias, 0)
# Zero-initialize the last BN in each residual branch,
# so that the residual branch starts with zeros, and each residual block behaves like an identity.
# This improves the model by 0.2~0.3% according to https://arxiv.org/abs/1706.02677
if zero_init_residual:
for m in self.modules():
if isinstance(m, Bottleneck):
nn.init.constant_(m.bn3.weight, 0)
elif isinstance(m, BasicBlock):
nn.init.constant_(m.bn2.weight, 0)
def _make_layer(self, block, planes, blocks, stride=1):
downsample = None
if stride != 1 or self.inplanes != planes * block.expansion:
# normly happened when stride = 2
downsample = nn.Sequential(
conv1x1(self.inplanes, planes * block.expansion, stride),
nn.BatchNorm2d(planes * block.expansion),
)
layers = []
layers.append(block(self.inplanes, planes, stride, downsample))
self.inplanes = planes * block.expansion
for _ in range(1, blocks):
# only the first block need downsample thus there is no downsample and stride = 2
layers.append(block(self.inplanes, planes))
return nn.Sequential(*layers)
def forward(self, x):
x = self.conv1(x)
x = self.bn1(x)
x = self.relu(x)
x = self.maxpool(x)
c2 = self.layer1(x)
c3 = self.layer2(c2)
c4 = self.layer3(c3)
c5 = self.layer4(c4)
x = self.avgpool(x)
x = x.view(x.size(0), -1)
x = self.fc(x)
return c5
最終的な avgpool はグローバル平均プーリングであることに注意してください。
ベーシックブロック
class BasicBlock(nn.Module):
expansion = 1
def __init__(self, inplanes, planes, stride=1, downsample=None):
# here planes names channel number
super(BasicBlock, self).__init__()
self.conv1 = conv3x3(inplanes, planes, stride)
self.bn1 = nn.BatchNorm2d(planes)
self.relu = nn.ReLU(inplace=True)
self.conv2 = conv3x3(planes, planes)
self.bn2 = nn.BatchNorm2d(planes)
self.downsample = downsample
self.stride = stride
def forward(self, x):
identity = x
out = self.conv1(x)
out = self.bn1(out)
out = self.relu(out)
out = self.conv2(out)
out = self.bn2(out)
if self.downsample is not None:
identity = self.downsample(x)
out += identity
out = self.relu(out)
return out
レスネット18
対応するのは [2,2,2,2] です。
def resnet18(pretrained=False, **kwargs):
"""Constructs a ResNet-18 model.
Args:
pretrained (bool): If True, returns a model pre-trained on ImageNet
"""
model = ResNet(BasicBlock, [2, 2, 2, 2], **kwargs)
if pretrained:
print('Loading the pretrained model ...')
# strict = False as we don't need fc layer params.
model.load_state_dict(model_zoo.load_url(model_urls['resnet18']), strict=False)
return model
レスネット34
def resnet34(pretrained=False, **kwargs):
"""Constructs a ResNet-34 model.
Args:
pretrained (bool): If True, returns a model pre-trained on ImageNet
"""
model = ResNet(BasicBlock, [3, 4, 6, 3], **kwargs)
if pretrained:
print('Loading the pretrained model ...')
model.load_state_dict(model_zoo.load_url(model_urls['resnet34']), strict=False)
return model
レスネット20
これは強調する必要があります。記事では通常の ResNet20 を提案する必要があります。cifar データセットに対して n=3 が設計されている場合、1+6*3+1=20
class ResNet4Cifar(nn.Module):
def __init__(self, block, num_block, num_classes=10):
super().__init__()
self.in_channels = 16
self.conv1 = nn.Sequential(
nn.Conv2d(3, 16, kernel_size=3, padding=1, bias=False),
nn.BatchNorm2d(16),
nn.ReLU(inplace=True))
# we use a different inputsize than the original paper
# so conv2_x's stride is 1
self.conv2_x = self._make_layer(block, 16, num_block[0], 1)
self.conv3_x = self._make_layer(block, 32, num_block[1], 2)
self.conv4_x = self._make_layer(block, 64, num_block[2], 2)
self.avg_pool = nn.AdaptiveAvgPool2d((1, 1))
self.fc = nn.Linear(64 * block.expansion, num_classes)
def _make_layer(self, block, out_channels, num_blocks, stride):
strides = [stride] + [1] * (num_blocks - 1)
layers = []
for stride in strides:
layers.append(block(self.in_channels, out_channels, stride))
self.in_channels = out_channels * block.expansion
return nn.Sequential(*layers)
def forward(self, x):
output = self.conv1(x)
output = self.conv2_x(output)
output = self.conv3_x(output)
output = self.conv4_x(output)
output = self.avg_pool(output)
output = output.view(output.size(0), -1)
output = self.fc(output)
return output
def resnet20(num_classes=10, **kargs):
""" return a ResNet 20 object
"""
return ResNet4Cifar(BasicBlock, [3, 3, 3], num_classes=num_classes)
パラメータ量の計算も 0.27M であり、論文と一致しています。入力が [1,3,32,32] の場合、出力次元は [1,64,8,8] です。
ただし、最初の 3 層の 3x3 畳み込み層のみを変更する記事もあり、チャネル数は 16、32、64 を使用せず、4 層の 64、128、256、512 のままです。このようにして、パラメータの数は 11.25M になります
。タスクは異なりますが、元のネットワーク構造に注意を払わなければ、これは無視できます。
ボトルネックブロック
ボトルネック ブロックでは 1×1 畳み込み層が使用されます。入力チャネル数が 256 の場合、1×1 畳み込み層はまずチャネル数を 64 に減らし、次に 3×3 畳み込み層を通過した後にチャネル数を 256 に増やします。 1 畳み込み層はより深いということです。ネットワークでは、多数のチャネルを持つ入力が少数のパラメーターで処理されます。
この構造は ResNet50 と ResNet101 で使用されます。
class Bottleneck(nn.Module):
expansion = 4
def __init__(self, inplanes, planes, stride=1, downsample=None):
super(Bottleneck, self).__init__()
self.conv1 = conv1x1(inplanes, planes)
self.bn1 = nn.BatchNorm2d(planes)
self.conv2 = conv3x3(planes, planes, stride)
self.bn2 = nn.BatchNorm2d(planes)
self.conv3 = conv1x1(planes, planes * self.expansion)
self.bn3 = nn.BatchNorm2d(planes * self.expansion)
self.relu = nn.ReLU(inplace=True)
self.downsample = downsample
self.stride = stride
def forward(self, x):
identity = x
out = self.conv1(x)
out = self.bn1(out)
out = self.relu(out)
out = self.conv2(out)
out = self.bn2(out)
out = self.relu(out)
out = self.conv3(out)
out = self.bn3(out)
if self.downsample is not None:
identity = self.downsample(x)
out += identity
out = self.relu(out)
return out
レスネット50
上記のネットワーク構造と同様に、階層数に応じてボトルネックを積み上げれば十分です。
def resnet50(pretrained=False, **kwargs):
"""Constructs a ResNet-50 model.
Args:
pretrained (bool): If True, returns a model pre-trained on ImageNet
"""
model = ResNet(Bottleneck, [3, 4, 6, 3], **kwargs)
if pretrained:
print('Loading the pretrained model ...')
model.load_state_dict(model_zoo.load_url(model_urls['resnet50']), strict=False)
return model
ResNet はどのような問題を解決しますか?
Zhihu の質問を読むことをお勧めします。Resnetはどのような問題を解決しますか?
私のお気に入りの回答をいくつか投稿してください。
A.LLの場合L層のネットワークの場合、残差表現のない Plain Net の勾配相関の減衰は1 2 L \frac{1}{2^L}2L1、一方、ResNet の減衰はわずか1 L \frac{1}{\sqrt{L}}L1。BN 後に勾配の係数が正常範囲内で安定したとしても、実際には層の数が増加するにつれて勾配の相関は減衰し続けます。ResNet がこの相関関係の減衰を効果的に低減できることが証明されています。
B. 「勾配の分散」の観点では、入力 x の恒等マップが出力に導入される場合、勾配もそれに応じて定数 1 を導入します。このようなネットワークは確かに異常な勾配値を引き起こす傾向がありません。勾配を安定させる役割を果たしました。
C. スキップ接続を追加すると、異なる解像度機能の組み合わせを実現できます。これは、浅い層は高解像度だが低レベルのセマンティクス機能を持つ傾向があり、一方、深いレベルの機能は高レベルのセマンティクスを持つが、解像度が非常に低いためです。低い。ジャンプの導入により、実際にはモデル自体がより「柔軟な」構造を持つようになります。つまり、トレーニング プロセス自体において、モデルは各部分で「より多くの畳み込みと非線形変換を行う」か「より多くのことを行う」かを選択できます。 . それはやめてください」、またはその 2 つの組み合わせです。モデルはトレーニング後に独自の構造に適応できます。3
D. 残差ネットワークを使用する場合、スキップ接続構造が追加され、このときビルディング ブロックのタスクが F(x) := H(x) から F(x) := H(x) に変更されます。 )-x フィッティングするこれら 2 つの関数を比較すると、フィッティング残差グラフの方が最適化が簡単です。つまり、F(x) := H(x)-x は F(x) := H(x よりも正確です) ) 最適化が容易4.差動アンプの例を示します。F は加算前のネットワーク マップ、H は入力から加算までのネットワーク マップです。たとえば、5 が 5.1 にマッピングされる場合、残差の導入前は F'(5)=5.1、導入後は H(5)=5.1、H(5)=F(5)+5、F(5)= となります。残差には 0.1 が導入されます。ここでの F' と F は両方ともネットワーク パラメーター マッピングを表し、残差を導入した後のマッピングは出力の変化に対してより敏感です。たとえば、s の出力が 5.1 から 5.2 に変化すると、マッピング F' の出力は 1/51=2% 増加しますが、5.1 から 5.2 への残差構造の出力では、マッピング F は 0.1 から 0.2 になります。 100%の増加。当然、後者の出力変化の方がウェイト調整に与える影響が大きいため、効果はより優れています。残差の考え方は、同じ主要部分を削除し、それによって小さな変化を強調することです。
名言もたくさんあるし、使いやすければ終わり〜