科学的知識
ICML は International Conference on Machine Learning の略で、International Conference on Machine Learning です。ICML は現在、International Machine Learning Society (IMLS) が主催する機械学習に関する年次トップ国際会議に発展しています。
# 序文
9月。
前回の深層学習理論の記事では、深層代表ネットワークである GoogLeNet を一度に学習し、提案された Inception モジュールを通じてより深いネットワークを構築しました。今日は、深層学習のディープ ネットワークの中で最も代表的なネットワークである ResNet ネットワークについて説明しますが、これまでのネットワーク構造とどう違うのでしょうか? そして、なぜネットワークが提案されたのですか?以下の内訳をご覧ください。
ResNet ネットワーク
この共有論文のタイトルは「画像認識のための深層残差学習」で、翻訳されたタイトルは「画像認識のための深層残差学習」を意味します。ネットワークが提案されるやいなや、コンピューター ビジョンの分野におけるディープ ネットワークの認識を完全に一新し、その後、多くの分野で残差ネットワークの複数のバリアントを導出し、その広範囲にわたる影響は今日まで続いています。画像認識の分野では残差ネットワークしか知られていないと言われていますが、それ以外のネットワークは知られていません。
論文のスクリーンショット:
論文アドレス:https://arxiv.org/pdf/1512.03385.pdf
1. 残留ネットワークの理由
上の 2 つの図は、以前のバックプロパゲーションと勾配降下アルゴリズムの導出プロセスを示しています. 詳細な記事については、深層学習理論 (5) -- 勾配降下アルゴリズムの数学的導出, 深層学習理論 (7) -- 逆拡散を参照してください。
残差ネットワークの提案の理由について、著者がアブストラクトの冒頭で提案した、つまり、ニューラル ネットワークのトレーニングは深くなるほど難しくなるということですが、なぜでしょうか。ネットワークがより多くの特徴を抽出するほど、レイヤーが深くなり、より多くの情報が表されると言いませんでしたか? はい、一般的に言えば、これは事実ですが、この文には制限があります。つまり、特定の数のネットワーク層の範囲内で、この範囲はどれくらいの大きさですか? 一般的に言えば、以前の VGG ネットワークと GoogLeNet ネットワークと比較することができます. これら 2 つのネットワークは十分に深いです. 深くなると、ネットワークをトレーニングできない可能性があります. なぜ? これは勾配の観点から説明する必要があります. 元のディープ ラーニングの記事で共有したことを覚えていますか? ネットワーク パラメーターの更新はバックプロパゲーション アルゴリズムに依存し、バックプロパゲーション アルゴリズムは通常勾配降下アルゴリズムを使用します? ニューラル ネットワークの深さと勾配降下アルゴリズムの関係は? 勾配降下アルゴリズムはネットワーク全体で連鎖律の導関数を導出することであることがわかっています.ここで問題が発生します.ネットワークの深さは一定の範囲内にあり,連鎖律は完全に問題ありません.乗算項目が多いほど,これらの勾配値 (乗算項目でさえも) は多くの場合浮動小数点数であり、ますます多くの乗算により最終的な勾配値が非常に小さくなり、最終的な勾配が 0 になり、勾配が消えます。勾配降下式によれば、勾配が消失し、最後の勾配は 0 であり、現在の勾配値は変更されないため、ネットワーク パラメータは更新されず、トレーニングの次のステップを実行できません。したがって、ネットワークの深さが深くなるにつれて勾配消失の問題が発生するため、ネットワークのトレーニングが深ければ深いほど難しくなりますが、これは通常、残差ネットワークによって提案された理由として説明できます。
2. ネットワーク構造
上の図は、記事で提案されている高速残差学習を示しています.これは、残差ネットワークの基本モジュールでもあります.注意深く観察した後、以前のネットワークとの違いはありますか? 実際、それは非常に単純で、つまり、入力端子を出力端子に直接接続する追加のジャンプ接続がありますが、人々は無視します。通常のネットワークには、入力 x にもう 1 つのステップを追加すると、次の 2 つの利点があります。
高位情報と低位情報を統合し、特徴表現をより豊かにする。
入力 x の出現により、バックプロパゲーションを実行すると、勾配降下アルゴリズムで常に現在の x のもう 1 つの導関数が存在するため、勾配が非常に小さく表示されることはなく、勾配を解く問題はなくなり、より深いネットワーク訓練することができます。
論文中のネットワーク構造構成:18層から152層へ
例の 1 つ: 32 層の残差ネットワーク構造
基本的な残差ブロックは比較的単純なので、各層の構造については詳しく説明しませんが、実戦で共有する際に詳しく説明します。
終わり
エピローグ
これでこの問題の共有は終わりです. 残差ネットワークの出現により、深層学習のプロセスが導かれました, これもある程度私たちを導きます. より良い解決策はそれほど難しくありません. 多分小さな変化がより大きなものになるでしょう.改善するには、さらに先に進むために、基本原則から始める必要があります。
次号でお会いしましょう!
編集者: 凡人 Yueyi|レビュー: 凡人 Xiaoquanquan
上級ITツアー
過去のレビュー
深層学習理論 (16) -- GoogLeNet による深さの謎の再探索
深層学習理論 (15) -- VGG による深さの謎の最初の探求
過去 1 年間に行ったこと:
【年末総括】古きに別れ新しきを迎え、2020年、また始めよう
「いいね!」をクリックして行きましょう〜