LeNet、AlexNet、VGGNet の概要

LeNet、AlexNet、VGGNet の概要

このセクションは、参考資料 3: p200 の章の演習です。 9.4 概要

この内容をもとにまとめてみますので、間違っているところがあればご指摘ください。

1. LeNet-5、AlexNet、および VGG-16 ネットワーク モデルの特徴は何ですか?

ルネット-5

詳細を表示: https://blog.csdn.net/seasonsyy/article/details/132639952?spm=1001.2014.3001.5502

畳み込みニューラル ネットワークのプロトタイプは 1989 年に提案されました。コンピューター ハードウェアの能力の限界により、その開発は制限されました。LeNet-5 の改良版は 1998 年に登場しました。これは、畳み込みニューラル ネットワークの古典的かつ先駆的な作品です。最初はコンピュータ ビジョンの問題に対処するために使用され手書き数字の認識精度において非常に優れた結果を達成しました。これは、他のディープ ネットワーク モデルを学習するための基礎とみなすことができます。

5 層構造 (2 つの畳み込み層、3 つの全結合層) で、最終的にソフトマックス アクティベーション関数を通じて 10 個のカテゴリを出力します。

活性化関数は Tanh 関数または Sigmoid 関数を使用します

アレックスネット:

詳細を表示: https://blog.csdn.net/seasonsyy/article/details/132640381?spm=1001.2014.3001.5502

AlexNet ネットワークは、2012 年の ILSVRC (ImageNet Large Scale Visual Recognition Challenge) コンペティション (大規模視覚認識チャレンジ) のチャンピオン ネットワーク (分類チャンピオン) であり、分類精度率は従来の 70%+ から 80%+ に向上しています。 。

  • ネットワーク加速トレーニングに初めてGPUが使用される

  • ReLU 活性化関数は、従来の Sigmoid 活性化関数や Tanh 活性化関数の代わりに使用されます。

    • ReLU 活性化関数はよりシンプルでトレーニングしやすくなりました
    • (それ以来、ReLU 関数とそのバリアントは、畳み込みニューラル ネットワーク活性化関数の世界的な標準になりました)
  • LRN ローカル応答正規化が使用されます

    • LRN の役割: 畳み込み層の出力を正規化し、ネットワークの収束を促進し、汎化機能を強化するために使用されます。

      注: その後の研究で、ローカルに対応する正規化層の効果があまり良くないことが徐々に判明したため、基本的には使用されなくなりました。

  • ニューロンをランダムに殺す(過剰学習を減らすため)

  • プーリング操作を重複させると (プーリング カーネルのサイズより小さいプーリング ステップ)、エラー率が減少します。

VGG-16:

詳細を表示: https://blog.csdn.net/seasonsyy/article/details/132676351?spm=1001.2014.3001.5502

2014年にオックスフォード大学の著名な研究グループであるVGG(Visual Geometry Group)によって提案され、ローカリゼーションタスク(測位タスク)で1位、クラシフィケーションタスク(分類タスク)で2位を獲得しました。その年の ImageNet コンペティション (ILSVRC) に参加しました。

  • 大規模なコンボリューション カーネル (5×5、11×11) を、複数の 3×3 の小さなコンボリューション カーネルをスタックすることで置き換えます。

    • 計算量を減らすため、小さな畳み込みカーネルは画像の小さな視覚的特徴を抽出するのに役立ちます。
  • 積み重ね可能なブロックネットワーク構造

    各畳み込みは同じ畳み込みを使用し、画像のサイズは変わりませんが、抽出される特徴は増加します

    ネットワーク システムは非常に単純な構造、強力な拡張性、優れた汎用性を備えています。

2. 多次元畳み込みはどのように機能しますか?

3 次元コンボリューション: コンボリューション カーネルは深く、コンボリューション カーネルのサイズは f×f×3 です。

このような 3 チャネル コンボリューション カーネルを使用して 3 次元画像上をスライドさせて特徴を抽出するプロセスが 3 次元コンボリューションです。

コンボリューションカーネルのチャネル数を3からそれ以上に拡張すると、多次元コンボリューションが得られますが、その計算方法は3次元コンボリューションと全く同じです。

3. 同じ畳み込みの原理は何ですか? 特徴は何ですか?

  1. 原則:

本質的には、これは依然として通常の畳み込みの一種であり、計算式は依然として
出力 = [ (入力 − フィルター サイズ + 2 ∗ パディング ) / ストライド ] + 1 出力=[(入力フィルター サイズ + 2*パディング)/ストライド]+1出力する_ _ _=[ (入力_ _フィルターサイズ_ _ _ _ _+2パディング) /ストライド] _ _ _ _ _ _ _ _ _+1
利点: 畳み込み後に画像サイズが縮小されず、元の画像内の情報も畳み込まれないため、抽出された特徴マップはより完全になります

インスピレーション: 独自の畳み込みニューラル ネットワークを構築する場合、適切なタイミングで Same 畳み込みメソッドを採用すると、優れたパフォーマンスが得られる可能性があり、コードは非常にシンプルです。Same 畳み込みパラメータの要件に従って応答を設定するだけで済みます。

# 利用nn包构建采用Same卷积的卷积层
self.conv1=nn.Sequential(
    nn.Conv2d
    (
        in_channels=1,
        out_channels=6,
        kernel_size=3,
        stride=1,  # 步长一定要设置为1
        padding=1 # padding设置成1就实现了加边界
    ),
    nn.ReLU(),
    nn.MaxPool2d(kernel_size=2)
)
  1. 特徴:画像のサイズは変わりませんが、抽出される特徴は増加します。

4. Softmax 分類器の原理は何ですか? 特徴は何ですか?

Softmax は Sigmoid の 2 クラス分類を一般化したもので、データの処理に必要な手順は 2 つだけです。

  • まず、指数関数を使用して、複数分類の結果をゼロから正の無限大までマッピングします。
  • 次に、正規化方法を使用して、結果のマッピングの対応する確率を取得します。

出力を n 種類に分類する必要があると仮定すると、出力は次のように Softmax 分類器を通過した後に n 個の確率を取得します。

ここに画像の説明を挿入

上の式は、Softmax 分類器の本質を具体化しています。

  • 分子表現処理の最初のステップ: 指数関数を使用して、複数の分類結果をゼロから正の無限大までマッピングします。
  • 分母: すべての結果を加算し、分子を正規化することを意味します。

: ネットワークが 3 つのカテゴリの結果を出力する必要があるとします。トレーニング プロセス中に、ネットワークは [12 26 -9] の行ベクトルを出力します。ソフトマックス分類器の計算プロセスは次のとおりです。

ここに画像の説明を挿入

P2 が 1 に最も近く、第 2 分類の可能性が 100% に近い非常に高いことを示しているため、ネットワークが出力する分類結果は第 2 分類であると考えられます。

参考文献

  1. 『ディープラーニングとニューラルネットワーク』 趙夢光編

出版社: Electronic Industry Press、初版 2023 年 1 月

ISBN: 978-7-121-44429-6

  1. 「深層畳み込みニューラル ネットワークの原理と実践」Zhou Pucheng、Li Congli、Wang Yong、Wei Zhe 編集

出版社: 北京: 電子産業プレス、2020.10

ISBN: 978-7-121-39663-2

  1. 『Pythonニューラルネットワーク入門と実践』 王凱編

出版社: 北京大学出版局

ISBN: 9787301316290

おすすめ

転載: blog.csdn.net/seasonsyy/article/details/132676481