Deep Learning Theory (Seventeen) -- ResNet のディープ クラシック

科学的知識

    ICML は International Conference on Machine Learning の略で、International Conference on Machine Learning です。ICML は現在、International Machine Learning Society (IMLS) が主催する機械学習に関する年次トップ国際会議に発展しています。

6d12553e06a25493fd3a17a9190c2924.png

# 序文

9月。

前回の深層学習理論の記事では、深層代表ネットワークである GoogLeNet を一度に学習し、提案された Inception モジュールを通じてより深いネットワークを構築しました。今日は、深層学習のディープ ネットワークの中で最も代表的なネットワークである ResNet ネットワークについて説明しますが、これまでのネットワーク構造とどう違うのでしょうか? そして、なぜネットワークが提案されたのですか?以下の内訳をご覧ください。

eb973608ac37451b7e9a7c0116e47b72.png

ResNet ネットワーク

d40b0342bd1fe9ba9f66027df87e5c8b.png

この共有論文のタイトルは「画像認識のための深層残差学習」で、翻訳されたタイトルは「画像認識のための深層残差学習」を意味します。ネットワークが提案されるやいなや、コンピューター ビジョンの分野におけるディープ ネットワークの認識を完全に一新し、その後、多くの分野で残差ネットワークの複数のバリアントを導出し、その広範囲にわたる影響は今日まで続いています。画像認識の分野では残差ネットワークしか知られていないと言われていますが、それ以外のネットワークは知られていません。

論文のスクリーンショット:

672f3a89a25930cd90da45dc78c097fe.png

ad3af091a10a38a85c52e6eee7b6910b.png

論文アドレス:https://arxiv.org/pdf/1512.03385.pdf

1. 残留ネットワークの理由

fb416c65a81fc4e5838a73f982c065a3.png

a2b077fb27e2eaec706d64eeca4ab825.png

dfae70fd2198b033702b1c52d317a609.png

上の 2 つの図は、以前のバックプロパゲーションと勾配降下アルゴリズムの導出プロセスを示しています. 詳細な記事については、深層学習理論 (5) -- 勾配降下アルゴリズムの数学的導出深層学習理論 (7) -- 逆拡散を参照してください。

残差ネットワークの提案の理由について、著者がアブストラクトの冒頭で提案した、つまり、ニューラル ネットワークのトレーニングは深くなるほど難しくなるということですが、なぜでしょうか。ネットワークがより多くの特徴を抽出するほど、レイヤーが深くなり、より多くの情報が表されると言いませんでしたか? はい、一般的に言えば、これは事実ですが、この文には制限があります。つまり、特定の数のネットワーク層の範囲内で、この範囲はどれくらいの大きさですか? 一般的に言えば、以前の VGG ネットワークと GoogLeNet ネットワークと比較することができます. これら 2 つのネットワークは十分に深いです. 深くなると、ネットワークをトレーニングできない可能性があります. なぜ? これは勾配の観点から説明する必要があります. 元のディープ ラーニングの記事で共有したことを覚えていますか? ネットワーク パラメーターの更新はバックプロパゲーション アルゴリズムに依存し、バックプロパゲーション アルゴリズムは通常勾配降下アルゴリズムを使用します? ニューラル ネットワークの深さと勾配降下アルゴリズムの関係は? 勾配降下アルゴリズムはネットワーク全体で連鎖律の導関数を導出することであることがわかっています.ここで問題が発生します.ネットワークの深さは一定の範囲内にあり,連鎖律は完全に問題ありません.乗算項目が多いほど,これらの勾配値 (乗算項目でさえも) は多くの場合浮動小数点数であり、ますます多くの乗算により最終的な勾配値が非常に小さくなり、最終的な勾配が 0 になり、勾配が消えます。勾配降下式によれば、勾配が消失し、最後の勾配は 0 であり、現在の勾配値は変更されないため、ネットワーク パラメータは更新されず、トレーニングの次のステップを実行できません。したがって、ネットワークの深さが深くなるにつれて勾配消失の問題が発生するため、ネットワークのトレーニングが深ければ深いほど難しくなりますが、これは通常、残差ネットワークによって提案された理由として説明できます

2. ネットワーク構造

743ae372470b9861ed164ba30d0f8208.png

3232e4ce0b4ac29da387ced879a53e99.png

上の図は、記事で提案されている高速残差学習を示しています.これは、残差ネットワークの基本モジュールでもあります.注意深く観察した後、以前のネットワークとの違いはありますか? 実際、それは非常に単純で、つまり、入力端子を出力端子に直接接続する追加のジャンプ接続がありますが、人々は無視します。通常のネットワークには、入力 x にもう 1 つのステップを追加すると、次の 2 つの利点があります。

  1. 高位情報と低位情報を統合し、特徴表現をより豊かにする。

  2. 入力 x の出現により、バックプロパゲーションを実行すると、勾配降下アルゴリズムで常に現在の x のもう 1 つの導関数が存在するため、勾配が非常に小さく表示されることはなく、勾配を解く問題はなくなり、より深いネットワーク訓練することができます。

論文中のネットワーク構造構成:18層から152層へ

0b373ac90729fcb9f7b1cb0263158864.png

例の 1 つ: 32 層の残差ネットワーク構造

3dde896c59fbb065c33badb3421af5f3.png

基本的な残差ブロックは比較的単純なので、各層の構造については詳しく説明しませんが、実戦で共有する際に詳しく説明します。

91da35d14575409b29a771267bf419ce.gif

終わり

エピローグ

これでこの問題の共有は終わりです. 残差ネットワークの出現により、深層学習のプロセスが導かれました, これもある程度私たちを導きます. より良い解決策はそれほど難しくありません. 多分小さな変化がより大きなものになるでしょう.改善するには、さらに先に進むために、基本原則から始める必要があります。

次号でお会いしましょう!

編集者: 凡人 Yueyi|レビュー: 凡人 Xiaoquanquan

9df672740cfb1e3d59fa2fe8d7e52094.png

上級ITツアー

過去のレビュー

深層学習理論 (16) -- GoogLeNet による深さの謎の再探索

深層学習理論 (15) -- VGG による深さの謎の最初の探求

深層学習理論 (14) -- AlexNet の次のレベル

過去 1 年間に行ったこと:

【年末総括】古きに別れ新しきを迎え、2020年、また始めよう

【年末のまとめ】2021年、古きに別れ新しきを迎える

71868f130e9ccfc75550fe0b93bc6b01.gif

「いいね!」をクリックして行きましょう〜

おすすめ

転載: blog.csdn.net/xyl666666/article/details/121896561