ニューラルネットワーク古典論文の超詳細解釈(5) - ResNet(残差ネットワーク)学習メモ(翻訳+精読+コード再現)

序文

「画像認識のための深層残差学習」という論文は、He Yuming らの著名人によって書かれたもので、深層学習の分野では非常に古典的なもので、2016CVPR で最優秀論文を受賞しました。今日も一緒に学びましょう!

论文原文:https://arxiv.org/abs/1512.03385


過去のレビュー:

古典的なニューラル ネットワーク論文の超詳細な解釈 (1) - AlexNet 学習メモ (翻訳 + 精読)
古典的なニューラル ネットワーク論文の超詳細な解釈 (2) - VGGNet 学習メモ( 翻訳 + 精読)
古典ニューラル ネットワーク論文の超詳細な解釈 (3) - GoogLeNet InceptionV1 学習ノート (翻訳 + 精読 + コード再現)
古典ニューラルネットワーク 論文超詳細解釈(4) - InceptionV2~V3学習メモ(翻訳+精読+コード再現)


序文

目次

アブストラクト—アブストラクト

1. はじめに - はじめに

2. 関連著作物 - 関連著作物 

2.1残差表現—残差表現

2.2ショートカット接続 - 短絡接続

3. 深層残差学習 - 深層残差学習

         3.1. 残留学習 — 残留学習

3.2. ショートカットによる ID マッピング - 短絡接続による ID マッピング

3.3. ネットワーク アーキテクチャ - ネットワーク アーキテクチャ

3.4. 実装—実装

4. 実験—実験

4.1. ImageNet 分類—ImageNet 分类

4.2. CIFAR-10 と分析 - CIFAR-10 と分析

4.3. PASCAL および MS COCO でのオブジェクト検出 - PASCAL および MS COCO でのオブジェクト検出

論文に関する10の質問


アブストラクト—アブストラクト

翻訳する

より深いニューラル ネットワークは、トレーニングがより困難になることがよくあります。ここでは、ネットワークのトレーニングの負担を軽減するために、残差学習フレームワークを提案します。これは、以前のネットワークよりもはるかに深いネットワークです。未知の関数を学習するのではなく、残差関数を学習するための入力として層を明示的に取得します。私たちは、残差ネットワークの最適化が容易で、深さが増すにつれて精度が向上することを証明するために、非常に包括的な実験データを提供します。 ImageNet データセットでは、深さ 152 層 (VGG の 8 倍) の残差ネットワークを評価しましたが、それでも VGG よりも複雑さは低いです。残差ネットワークは全体のエラー率 3.57% を達成しました。この結果は、ILSVRC2015 の分類タスクで 1 位を獲得しました。また、CIFAR-10 データセットを使用して 100 層ネットワークと 1000 層ネットワークを分析しました。

一部のコンピュータ ビジョンの方向認識タスクでは、多くの場合、奥行き表現が焦点となります。私たちの非常に深いネットワークにより、(COCO 物体検出データセット上で) 28% の相対的な改善を得ることができました。私たちは、ILSVRC および COCO2015 コンペティションに参加するために、深層残差ネットワークに基づいたバージョンを作成し、ImageNet オブジェクト検出、Imagenet オブジェクト位置特定、COCO オブジェクト検出、COCO 画像セグメンテーションで 1 位を獲得しました。


精読 

メインコンテンツ

背景:ニューラル ネットワークが深くなるほど、トレーニングは難しくなります

この記事の貢献:この記事では、非常に深いネットワークのトレーニングを簡素化する残差学習フレームワークを示します。このフレームワークは、レイヤーの代わりにレイヤーを入力として受け取ることによって残差関数を学習できます。未知の機能を学習します。

結果:この論文は、これらの残差ネットワークが最適化が容易であり、深さが増加するにつれて精度が向上する可能性があることを示す包括的な証拠を提供します。

結果:2015 年に ILSVRC 分類タスクで 1 位を獲得し、その後、ImageNet 検出、ImageNet ポジショニング、COCO 検出、COCO セグメンテーションでも 1 位を獲得しました。 1つ。


1. はじめに - はじめに

翻訳する

深層畳み込みニューラル ネットワークは、画像分類の分野で一連のブレークスルーを達成しました。ディープ ネットワークは、低/中/高レベルの機能と分類子をエンドツーエンドの多層モデルに適切に統合し、スタックされた層の数 (深さ) によって機能のレベルを強化できます。最近の結果では、モデルの深さが重要な役割を果たしていることが示されており、これが ImageNet コンペティションに参加するモデルが 16 層から 30 層までの「非常に深い」傾向にあるという事実につながりました。他の多くの視覚認識タスクは、非常に深いモデルから恩恵を受けます。

深さの重要性により、新たな疑問が生じます。より優れたネットワークのトレーニングは、より多くのレイヤーを積み重ねることと同じくらい簡単なのでしょうか?この問題を解決する上での障害となるのは、長い間人々を悩ませてきた勾配の消失/爆発であり、モデルの収束を最初から妨げています。正規化された初期化と中間正規化はこの問題を大幅に解決し、数十のネットワーク層を逆伝播確率的勾配降下法 (SGD) に収束させることができます。

深いネットワークが収束できる場合、劣化の問題が発生します。ネットワークの深さが増加すると、精度は (当然のことですが) 飽和に達し、その後急速に低下します。驚くべきことに、この劣化はオーバーフィッティングによって引き起こされるものではなく、私たちの実験が示すように、適度に深いモデルにさらに多くの層を追加すると、エラー率が高くなります。

低下 (トレーニング精度) の発生は、すべてのシステムが簡単に最適化できるわけではないことを示しています。浅いフレームワークとその深いバージョンを比較してみましょう。より深いモデルの場合は、アイデンティティ マッピングを構築して追加のレイヤーを構築し、他のレイヤーを浅いモデルから直接コピーすることによる解決策があります。この構築されたソリューションは、より深いモデルがその浅いバージョンよりも高いトレーニング エラー率を生成しないことも示しています。実験の結果、現時点では、この構築されたソリューションと同等以上のソリューションを見つけることができない (または、実現可能な時間内に実装できない) ことがわかります。

この論文では、この劣化問題を解決するための深層残差学習フレームワークを提案します。スタックされた各レイヤーを目的の基礎となるマッピングに直接適合させるのではなく、明示的にこれらのレイヤーを残差マッピングに適合させます。必要な基礎となるマッピングが H(x)H(x) であると仮定すると、積み重ねられた非線形層を別のマッピングに適合させます: F(x):=H(x)−xF(x):=H(x )−x。したがって、元のマッピングは F(x)+xF(x)+x に変換されます。残差マッピングは、元の参照されていないマッピングよりも最適化が容易であると推測されます。極端な場合、特定の恒等マップが最適である場合、非線形層のスタックで恒等マップを適合させるよりも、残差を 0 に変更する方が簡単です。

F(x)+xF(x)+x という式は、フィードフォワード ニューラル ネットワークの「ショートカット接続」によって実現できます (図 2)。ショートカット接続は 1 つ以上のレイヤーをスキップします。私たちの場合、ショートカット接続は単にアイデンティティ マッピングを実行し、その出力をスタックされた層の出力に追加します (図 2)。 ID ショートカット接続では、パラメータが追加されたり、計算が複雑になったりすることはありません。完全なネットワークは、エンドツーエンドの SGD バックプロパゲーションによってトレーニングすることができ、ソルバーを変更することなく、パブリック ライブラリ (Caffe など) を通じて簡単に実装できます。

この劣化問題を実証し、提案した方法を評価するために、ImageNet データセットに対して包括的な実験を実施します。この論文では、次のことを示しています。 1) 非常に深い残差ネットワークは最適化が簡単ですが、対応する「プレーン」ネットワーク (層を積み重ねただけ) は、深さが増すにつれてエラー率が高くなります。 2) 深い残差ネットワークはレイヤーを追加することで簡単に精度を向上させることができ、結果は以前のネットワークよりもはるかに優れています。

同様の現象は CIFAR-10 データセットでも発生しました。これは、提案手法の最適化の難易度と効果が特定のデータセットだけのものではないことを示しています。私たちは、このデータセット上で 100 層を超えるトレーニング モデルを提案することに成功し、1000 層を超えるモデルを調査しました。

ImageNet 分類データ セットでは、非常に深い残差ネットワークが優れた結果を達成しました。私たちの 152 層の残差ネットワークは、現在 ImageNet で最も深いネットワークであり、VGG ネットワークよりもさらに複雑ではありません。 ImageNet テスト セットでは、私たちのアンサンブルはわずか 3.57% のトップ 5 エラー率を達成し、ILSVRC 2015 分類コンテストで 1 位を獲得しました。この非常に深いモデルは、他の認識タスクでも非常に優れた汎化パフォーマンスを備えており、これにより、ILSVRC & COCO 2015 コンペティションの ImageNet 検出、ImageNet ローカリゼーション、COCO 検出、COCO セグメンテーションで 1 位を獲得することができました。これは残差学習法の一般性を示す強力なデモンストレーションであるため、これを他の視覚の問題や非視覚の問題にも適用します。

精読

背景

モデルの深さは重要な役割を果たしており、そのため、ImageNet コンペティションに参加するモデルは 16 ~ 30 層という「非常に深い」傾向があるという事実につながります。

問題 1: モデルの深さが大きすぎると、勾配の消失/爆発の問題が発生します。

勾配消失/勾配爆発の概念:どちらの問題も、ネットワークが深すぎることと、ネットワークの重みの更新が不安定であることが原因で発生します。これは基本的に、勾配バックプロパゲーションにおける連続乗算効果によるものです (1 未満の値が連続して複数回乗算されます)。勾配が消えると、入力層に近いパラメータ w はほとんど動かなくなりますが、勾配が爆発すると、入力層に近いパラメータ w が上下に跳ね上がります。

解決策:正規化された初期化と中間正規化 + BN により、ネットワーク コンバージェンスが高速化されます。

問題 2: ネットワークの深さが増加すると、精度は飽和に達し、その後急速に低下します。

ネットワーク劣化の概念:ニューラル ネットワークの層数が深くなるにつれて、最初はトレーニング精度が徐々に飽和します。層数が深くなり続けると、トレーニング精度が低下します。この低下は過学習によって引き起こされるものではありません (過学習の場合、誤差はトレーニング中に低くなり、テスト中には高くなるはずです)。

Q: ネットワークの劣化はなぜ起こるのですか?

非線形活性化関数 Relu の存在により、毎回の入力から出力までのプロセスはほぼ不可逆的であり、これにより多くの不可逆的な情報損失が発生します。機能に関する有用な情報が失われると、得られる結果は間違いなく満足のいくものではなくなります。簡単に言えば、仲介業者が違いを生み出します。層の数が増えると、中間層の情報が失われます。

 解決策:深層残差学習

 (具体的な方法は3.1章で説明します)

結果:

(1) 残差ネットワークの構造は最適化の収束を促進します。

(2) 劣化問題の解決

(3) 残留ネットワークにより、ネットワークの深さを拡張しながらネットワークのパフォーマンスを向上させることができます。


2. 関連著作物 - 関連著作物 

2.1残差表現—残差表現

翻訳する

残差表現
画像認識において、VLAD は残差ベクトルを辞書に対応して符号化した表現形式であり、Fisher Vector は VLAD の確率版とみなすことができます。これらは、画像の検索と分類のための強力で浅い表現です。ベクトル量子化の場合、残差ベクトル エンコードは生ベクトル エンコードよりも効率的です。

低レベルのビジョンやコンピュータ グラフィックスでは、偏微分方程式 (PDE) を解くために、通常、マルチグリッド法を使用してシステムをマルチスケールのサブ問題に再表現して解決します。問題は、粗いスケールと細かいスケールの間の問題を解決することです。マルチグリッドへのもう 1 つのアプローチは、2 つのスケール間の残差ベクトルを表す変数に依存する階層ベースの前処理です。実験によると、これらのソルバーは他の標準ソルバーよりもはるかに高速に収束しますが、これがメソッドの残差によるものであることに気づきませんでした。これらの方法は、適切な再定式化または前処理によって最適化問題を簡素化できることを示しています。

精読

メインコンテンツ

(1) ベクトル量子化の場合、残差ベクトル コーディングは元のベクトル コーディングよりも効率的です。

(2) マルチグリッドの残差特性により、ソルバーは他の標準ソルバーよりもはるかに高速に収束します。これは、適切な再定式化または前処理によって最適化問題を単純化できることを示しています。


2.2ショートカット接続 - 短絡接続

翻訳する 

ショートカット接続
ショートカット接続は、実践と理論研究の長いプロセスを経てきました。多層パーセプトロン (MLP) のトレーニングにおける初期の実践は、入力と出力を接続する線形層を追加することでした。 Szegedy2015GoingLee2015deeply では、いくつかの中間層が補助分類と直接結合されています。勾配の消失/爆発の問題は、ベクトルを接続することで解決できます。 Szegedy2015Going では、「インセプション」レイヤーはショートカット ブランチといくつかのより深いブランチで構成されます。

一方、「高速道路ネットワーク」は、ショートカット接続とゲート機能を組み合わせたものです。これらのゲートはデータに依存しており、追加のパラメーターがありますが、ID ショートカットにはパラメーターがありません。ゲートのショートカットが「閉じている」(0 に近い) 場合、高速道路ネットワーク内のレイヤーは非残差機能を表します。対照的に、私たちのモデルは常に残差関数を学習します。恒等ショートカットが閉じられることはなく、追加の残差関数を学習するときにすべての情報が常に通過されます。さらに、高速道路ネットワークでは、レイヤーの深さを増やす(たとえば、100 レイヤーを超える)ことによって精度を向上させることはできません。

精読

メインコンテンツ

(1) ショートカット接続は、実践的および理論的研究の長いプロセスを経て、効果的であることが証明されています。

(2) 高速道路ネットワークとの比較 (ゲート機能): ゲートのショートカットが「閉じている」(0 に近い) 場合、高速道路ネットワークの層は非残留機能を表します。対照的に、私たちのモデルは常に残差関数を学習します。恒等ショートカットは決して閉じられず、パラメーターがなく、追加の残差関数を学習するときにすべての情報が常に渡されます。さらに、高速道路ネットワークでは、レイヤーの深さを増やす(たとえば、100 レイヤーを超える)ことによって精度を向上させることはできません。


3. 深層残差学習 - 深層残差学習 

3.1. 残留学習 — 残留学習

翻訳する

H(x) は、いくつかの積み重ねられた層 (必ずしもすべてのネットワークではない) によって適合される基礎となるマップとして考えられます。ここで、x はこれらの層への入力です。複数の非線形層が複素関数を近似できると仮定すると、これは、これらの層が複素残差関数 (たとえば、H(x)−x) を近似できるという事実と同等です (入力次元と出力次元が同じであると仮定)。したがって、これらの層に残差関数 H(x) の代わりに F(x)=H(x)−x を推定するよう明示的に要求します。したがって、元の関数は F(x)+x になります。どちらの形式も (仮説どおり) 目的の関数に近似できるはずですが、学習が同じように簡単というわけではありません。

この再定式化は、劣化問題の異常な現象によって動機付けられています (図 1、左)。 「はじめに」で説明したように、アイデンティティ マッピングを使用して追加の層を構築できる場合、より深いモデルのトレーニング エラー率が、対応する浅いモデルのトレーニング エラー率よりも大きくなってはなりません。縮退問題は、ソルバーが複数の非線形層を介して恒等マップを推定するのが難しい可能性があることを示しています。残差学習の再定式化により、恒等マッピングが最適であれば、ソルバーは複数の非線形層の重みをゼロに向けて駆動し、恒等マッピングを近似します。

実際の状況では、アイデンティティ マッピングが最適である可能性は低いですが、私たちの再定式化はこの問題の前提条件として役立ちます。最適な関数がゼロ マップよりも恒等マップに近い場合、ソルバーは新しい関数を学習するよりも恒等マップ上の摂動を見つける方がはるかに簡単です。実験 (図 7) は、学習された残差関数が通常小さな応答しか持たないことを示し、恒等マッピングが合理的な前処理を提供することを示しています。

精読

ResNetの目的

ネットワークの層の数を深くすることを選択するのは、深いネットワークのパフォーマンスが浅いネットワークのパフォーマンスよりも優れていることを期待しているため、またはそのパフォーマンスが少なくとも浅いネットワークのパフォーマンスと同じであることを望んでいるからです。 (浅いネットワークの特性をそのままコピーすることに相当)

以前の方法

通常のネットワークでは、ネットワークの次の層に渡される必要がある入力は H(x)=F(x)、つまり H(x) に直接適合します。

この記事の改善点

ResNet では、次の層に渡される入力は H(x)=F(x)+x、つまりフィッティング残差 F(x)=H(x)-x になります。

残差モジュール:一方のパスは変更されません (アイデンティティ マッピング)。もう一方のパスは、元のネットワークに対する残差を当てはめて、元のネットワークの偏差を修正します。ネットワーク全体を基礎となるすべてのマッピングに適合させるのではなく、ネットワークは偏差を修正するだけで済みます。

自然

(1) 残差構造を追加した後、入力 x にはより多くの選択肢が与えられます。ニューラル ネットワークがこの層のパラメーターが冗長であることを学習した場合、H( x)=F(x)=x となるようにパラメーターを適合させることなく、この「ショートカット接続」曲線に直接従うことを選択し、この冗長な層をスキップすることができます。

(2) ID マッピングを追加した後、深いネットワークは少なくとも浅いネットワークよりも悪化することはありません。

(3) Resnet では、F(x) を 0 に変更するだけで、出力は F(x)+x=0+x=x になります。明らかに、ネットワークの出力を 0 に最適化する方が、ネットワークを最適化するよりも優れています。アイデンティティ変換ははるかに簡単です。

Q: H(x)=F(x)+x において F(x) が 0 の場合に有効となるのはなぜですか?

モデルのトレーニング プロセス中に、F(x) がトレーニングされます。F(x) がモデルのトレーニング精度の向上に影響を与えない場合、自然勾配降下法アルゴリズムはこの部分のパラメーターを調整して、この部分の効果が低下するようにします。このようにして、モデル全体では、深さが深くなるほど影響が悪化するという状況は発生しません。


3.2. ショートカットによる ID マッピング - 短絡接続による ID マッピング 

翻訳する

スタック層で残差学習アルゴリズムを採用します。構成要素を図 2 に示します。この記事の構成要素は次のように定義されます (式 1): y=F(x,{Wi})+x。
ここで、x と y はレイヤーの入力と出力を表します。それぞれ。関数 F(x,{Wi}) は、学習された残差マッピングを表します。図 2 の例には 2 つの層 F=W2σ(W1x) が含まれています。ここで σ は ReLU を表し、簡単にするためにバイアス項は省略されています。 F+x 操作は、ショートカット接続と要素ごとの加算によって表されます。加算後、別の非線形演算 (たとえば、図 2 に示す σ(y) ) を実行します。

Eq.1 のショートカット接続では、パラメーターが追加されたり、計算が複雑になったりすることはありません。これは魅力的なアプローチであるだけでなく、「プレーン」ネットワークと残りのネットワークを比較する際にも非常に重要です。同じパラメータ、深さ、幅、計算コスト (無視できる要素レベルの追加を除く)​​ に基づいて、2 つのネットワークを公平に比較​​できます。

Eq.1 では、x と F の次元は同じでなければなりません。それらが同じでない場合 (たとえば、入力/出力チャネルを変更する場合)、ショートカット接続を通じて線形マッピング Ws を実行して、2 つの次元 (式 2) を一致させることができます。 y=F(x,{Wi })+Wsx 。

正方行列 Ws は式 1 でも使用できます。しかし、私たちの実験では、劣化問題を解決するには恒等マッピングで十分で経済的であることが示されているため、Ws は寸法の不一致問題を解決するためにのみ使用されます。

残差関数 F の形状は柔軟です。この記事の実験で使用した関数 FF は 2 層または 3 層ありますが (図 5)、もちろんそれ以上の層も実現可能です。しかし、F に 1 つの層しか含まれていない場合、Eq.1 は一次関数 y=W1x+x と一致するため、何の利点もありません。

また、これは全結合層だけでなく畳み込み層にも適用できることもわかりました。関数 F(x,{Wi}) は複数の畳み込み層を表すことができ、2 つの特徴マップのチャネル間で要素レベルの加算を実行します。

精読

2 つのショートカット接続方法:

(1) ショートカットは同じ次元マッピングを持ち、F(x) と x の加算は要素ごとの加算を意味します。

  • y=F(x,Wi)+x
  • F=W2σ(W1x)

ここで、x と y はそれぞれレイヤーの入力と出力を表します。関数 F(x,Wi) は学習された残差マッピングを表し、σ は ReLU を表します

この方法は、ショートカットを介して入力 x を直接渡し、追加のパラメーターを導入せず、モジュールの計算の複雑さを増加させないため、残差ネットワークとプレーン ネットワークを公平に比較​​できます。

(2) 2 つの次元が異なる場合 (入出力チャネルが変更される)、次元を一致させるために x に対して線形マッピングを実行する必要があります。

  • y=F(x,Wi)+Wsx。
  • F=W2σ(W1x)

この方法の目的は、x と F(x) の間の次元の一貫性を維持することのみであるため、通常、隣接する残差ブロック間でチャネル数が変化する場合にのみ使用され、ほとんどの場合、最初の方法のみが使用されます。

残差学習に畳み込み層を使用する: 簡単にするために、上記の式は全結合層に基づいていますが、実際には、もちろん畳み込み層にも使用できます。この加算は、対応するチャネル間の 2 つの特徴マップの要素ごとの加算になります。


3.3. ネットワークアーキテクチャ—ネットワークアーキテクチャ 

翻訳する

複数のプレーン ネットワークと残余ネットワークでテストし、一貫した現象を観察しました。次に、ImageNet の 2 つのモデルについて説明します。

プレーン ネットワーク
プレーン ネットワーク構造 (図 3、中央) は主に VGG ネットワーク (図 3、左) からインスピレーションを得ています。
畳み込み層は主に 3*3 フィルターであり、次の 2 つの要件に従います: (i) 同じ出力特徴サイズを持つ層には同じ数のフィルターが含まれます。(ii) 特徴サイズが異なる場合各レイヤーの時間の複雑さを同じにするために、フィルターの数は半分になり、2 倍になります。ストライド 2 の畳み込み層を通じて直接ダウンサンプリングします。ネットワークの終端には、グローバル平均プーリング層と、ソフトマックスを含む 1000 クラスの完全接続層があります。図 3 (中) に示すように、重み付けされた層の数は 34 です。

特に、私たちのモデルは VGG ネットワークよりもフィルターの数が少なく、計算の複雑さが低くなります (図 3、左)。当社の 34 層構造には 36 億 FLOP (乗算-加算) が含まれており、これは VGG-19 (196 億 FLOP) の 18% にすぎません。

残差ネットワーク
上記のプレーン ネットワークに基づいて、ショートカット接続 (図 3、右) を挿入して、ネットワークを対応する残差バージョンに変換します。入力次元と出力次元が同じ場合、恒等ショートカット (式 1) を直接使用できます (図 3 の実線)。次元が増加する場合 (図 3 の点線)、2 つのオプションを検討してください:
(A) ショートカットでは引き続き ID マッピングが使用され、増加した次元でも 0 が埋め込まれます。この方法では、追加のパラメータは追加されません。 added;
(B) 式 2 のマッピング ショートカットを使用して、次元の一貫性を維持します (1*1 畳み込みを通じて)。
どちらのオプションでも、ショートカットが 2 つのサイズの特徴マップにまたがる場合、ストライド 2 の畳み込みが使用されます。
図3 ImageNetに対応したネットワークフレームワークの例。左: 参考としての VGG-19 モデル (196 億 FLOP)。中央: 34 のパラメーター レイヤー (36 億 FLOP) を含むプレーン ネットワーク。右: 34 パラメーター レイヤー (36 億 FLOP) を持つ残差ネットワーク。破線で示されたショートカットは次元を追加します。表 1 に、詳細とその他のバリエーションを示します。

表1

表 1 は、ImageNet の構造フレームワークに対応しています。ビルディング ブロックのパラメータは括弧内にあり (図 5 も参照)、いくつかのビルディング ブロックが積み重ねられています。ダウンサンプリングは、conv3_1、conv4_1、conv5_1 によってストライド 2 で実装されます。

精読

以下では、ImageNet データ セットを例として、プレーン ネットワークと残差ネットワークを比較および説明します。

プレーンネットワーク

プレーンなネットワーク構造は主に VGG ネットワークからインスピレーションを得ています。畳み込み層は主に 3*3 畳み込みカーネルであり、ストライド 2 で畳み込み層を通じて直接ダウンサンプリングされます。ネットワークの終端には、グローバル平均プーリング層と、ソフトマックスを含む 1000 クラスの完全接続層があります。重み付けレイヤー数は 34 です。

2 つの設計原則:

(i) 同じ出力サイズの特徴マップには、同じ数の畳み込みカーネルがあります。

(ii) 特徴マップのサイズが半分になる場合、同じ時間計算量を確保するために、畳み込みカーネルの数は 2 倍になります。

VGG との比較:

私たちのモデルは、VGG よりもコンボリューション カーネルが少なく、計算の複雑さが低くなります。当社の 34 層構造には 36 億 FLOP (乗算-加算) が含まれており、これは VGG-19 (196 億 FLOP) の 18% にすぎません。

残留ネットワーク

プレーン ネットワークに基づいて、ショートカット接続を追加すると、対応する残余ネットワークになります。

上の図に示すように、実線は同じ寸法を表しており、直接追加できます。点線はさまざまな次元を表し (ダウンサンプリング、ストライド 2 の畳み込みが表示されます)、残差ネットワークが使用されます。

寸法を調整するには 2 つの方法があります。

(1) ゼロ パディング: 追加のチャンネル パディングをゼロ パディングします。この方法では追加のパラメーターは導入されません。

(2) 線形射影変換: 1*1 畳み込みを使用して次元を増やすことは学習が必要なパラメータであり、精度はゼロパディングよりも優れていますが、時間がかかり、より多くのメモリを消費します。

どちらの方法もストライド 2 の畳み込みを使用します。


3.4. 実装—実装

翻訳する

ImageNet のネットワーク実装は、Krizhevsky2012ImageNet および Simonyan2014Very に準拠しています。 。画像の短辺の長さが[256,480]からランダムに抽出されるように画像のサイズを変更し、画像のサイズを拡大します。画像またはその水平方向を反転した画像から 224*224 のクロップをランダムにサンプリングし、各ピクセルから平均値を減算します。画像では標準のカラーエンハンスメントが使用されています。各畳み込み層の後、活性化層の前にバッチ正規化 (BN) を使用します。 He2014spatial に従って重みを初期化し、すべてのプレーン/残差ネットワークを最初からトレーニングします。
使用するミニバッチのサイズは 256 です。学習率は 0.1 から始まり、誤り率が頭打ちになるたびに学習率は 10 で除算され、モデル全体が 60*104 回の反復でトレーニングされます。ウェイト減衰を 0.0001 に、モーメンタムを 0.9 に設定します。 Ioffe2015Batch によると、Dropout は使用しません。

テストでは、比較のために、標準的な 10 作物テストを実施します。
最良の結果を得るために、Simonyan2014VeryHe2014spatial a> で完全に畳み込み形式にし、複数のスケールにわたって結果を平均します (短辺の長さがそれぞれ {224, 256, 384, 480, 640} になるように画像のサイズを変更します)。

精読

方法

(1) 画像を 256 ~ 480 までランダムに圧縮し、画像補正を行います。

(2) 出力処理プロセス: 224 * 224 を使用して小さな画像をランダムに切り出し、画像を強調するために水平ミラーリング (異なるスケール次元) を実行し、10 枚の小さな画像を 1 つの大きな画像に要約します (マルチスケールのトリミングと結果を使用できます)融合)。

(3) BN は各畳み込み層の後、または活性化層の前に使用されます。

パラメータ: ミニバッチは 256、学習率は 0.1、トレーニング反復数は 600,000、正則化は 0.0001、運動量は 0.9 です。ドロップアウトは使用されません (BN とドロップアウトを混合することはできません。単独で使用すると効果が高くなります。理由: 分散シフト)


4. 実験—実験

4.1. ImageNet 分類—ImageNet 分类

この論文では、1000 クラスの ImageNet2012 データセットで私たちの手法を評価します。トレーニング セットには 128 万枚の画像が含まれ、検証セットには 50,000 枚の画像が含まれています。 100,000 個のテスト画像でテストを行い、上位 1 位と上位 5 位のエラー率を評価しました。

プレーンネットワーク

翻訳する

まず、18 層と 34 層のプレーン ネットワークを評価しました。 34 層のネットワークを図 3 (中) に示します。 18 階の構造は非常に似ています。詳細については表 1 を参照してください。

表 2 に示す結果は、34 層ネットワークの検証エラー率が 18 層ネットワークよりも高いことを示しています。この現象の理由を明らかにするために、図 4 (左) では、トレーニング プロセス全体におけるトレーニングと検証のエラー率を比較しています。結果から、明らかな劣化の問題が観察されました。18 層ネットワークの解空間は 34 層解空間の部分空間であったにもかかわらず、34 層ネットワークはトレーニング プロセス全体を通してトレーニング エラー率が高かったのです。

この最適化の難しさは、勾配の消失によって引き起こされる可能性は低いと考えられます。これらのプレーン ネットワークのトレーニングでは BN が使用されるため、これにより順方向信号の分散がゼロ以外になることが保証されます。また、BN により逆方向通過位相の勾配が良好なパラダイムを持ち、順方向位相と逆方向位相の信号が消失しないことも確認しました。実際、34 層のプレーン ネットワークは依然として良好な精度を示しており (表 3)、ソルバーもある程度有効であることがわかります。ディーププレーンネットワークの収束率は指数関数的に減衰し、これがトレーニングエラー率の低減に影響を与える可能性があると推測しています。この最適化が難しい理由については、今後の研究で研究される予定です。

精読

最初の実験は 18 層と 34 層のプレーン ネットワークで実施されました。実験結果は次の表に示されており、劣化現象が発生しました: トレーニング中プロセス、34 層ネットワークでは、18 層ネットワークよりもトレーニング エラー率が高くなります。

(細線: トレーニング セットのエラー、太線: テスト セットのエラー)


 残留ネットワーク

翻訳する

次に、18 層と 34 層の残差ネットワーク ResNet を評価します。図 3 (右) に示すように、ResNets の基本的なフレームワークは、3*3 フィルターの各ペアにショートカット接続が追加されることを除いて、基本的にプレーン ネットワークのフレームワークと同じです。表 2 と図 4 (右) の比較では、すべてのショートカットは恒等マップであり、追加された次元 (オプション A) に対してゼロが埋め込まれています。したがって、パラメータを追加しませんでした。

表 2 と図 4 から次の 3 つの点がわかります。

まず、プレーン ネットワークとは対照的に、34 層 ResNet は 18 層 ResNet よりも良い結果 (2.8%) を示します。さらに重要なことは、34 層 ResNet はトレーニング セットと検証セットの両方でエラー率が低いことを示しました。これは、この設定が劣化の問題をうまく解決し、深度を増やすことで精度を向上できることを示しています。

第 2 に、対応するプレーン ネットワークと比較して、34 層 ResNet はトップ 1 エラー率を 3.5% 減少させます (表 2)。これはトレーニング エラー率の減少による恩恵を受けています (図 4 右と左)。これは、非常に深いネットワークにおける残差学習の有効性も検証します。

最後に、18 層プレーン ネットワークと残差ネットワークの精度は非常に近いことにも気付きました (表 2)。しかし、ResNet の収束速度ははるかに高速です。 (図 4 右と左)。
ネットワークが「特に深くない」場合 (18 レイヤーなど)、既存の SGD は単純なネットワークを非常にうまく解決でき、ResNet は最適化をより速く収束させることができます。

精読

次に、18 層と 34 層の残差ネットワークが評価されます。変数の一貫性を確保するために、基本的なフレームワーク構造は、畳み込み層の各ペアにショートカット接続が追加されていることを除いて、単純なネットワークと同じです。残差構造を実装します。次元が一致しない場合は、0 を使用して次元を埋めるため (つまり、3.3 で導入されたメソッド 1)、追加のパラメーターは追加されません。トレーニング結果は次の図に示されています

[表 2 ImageNet 検証セットのトップ 1 エラー率 (%、10 クロップテスト)]

結論は

(1) プレーン ネットワークとは対照的に、34 層の resnet ネットワークは 18 層のネットワークよりもエラー率が低くなります。 は、エラー率を高めることで精度を向上できることを示しています。深さを深くすることで、劣化の問題を解決します。

(2) プレーン ネットワークと比較して、同じレベルの resnet ネットワークのエラー率は低く、 残余ネットワークが深いレベルでも依然として有効であることを示しています。

(3) 18 層のプレーン ネットワークの場合、その精度は残差ネットワークの精度に非常に近くなります が、残差ネットワークの収束速度はより高速です。


アイデンティティと投影のショートカット—アイデンティティと投影のショートカット

翻訳する

パラメータのない ID ショートカットがトレーニングに役立つことが確認されました。次に、マッピングのショートカット (式 2) を検討します。表 3 では、3 つのオプションを比較します:
(A) 次元を増やすために 0 パディングを使用し、すべてのショートカットはパラメーターなしです (表 2 および図 4 (右) と同様); (C) すべてはマッピング ショートカットです。
(B) 増加した次元にはマッピング ショートカットを使用し、その他にはアイデンティティ ショートカットを使用します。

表 3 は、3 つのオプションのモデルが通常のモデルよりも優れていることを示しています。 B は A よりわずかに優れていますが、これは A の 0 パディングが残余学習を実行しないためであると考えられます。 C は B よりわずかに優れていますが、これはマッピング ショートカットによって導入されたより多くの (13) パラメータのおかげであると考えられます。 A、B、C の結果の小さな差は、劣化の問題を解決するためにショートカットのマッピングが必要ないことも示しています。したがって、この記事の残りの部分では、複雑さとモデルのサイズを軽減するために、オプション C のモデルは使用しません。 ID ショートカットは、追加の複雑さがないため、以下で紹介するボトルネック構造にとって特に重要です。

精読

パラメーターのない ID ショートカットは、トレーニング効果を向上させるのに間違いなく役立ちます。マッピング ショートカットには 3 つの方法から選択できます。

(1) ResNet - 34 A: すべてのショートカットはアイデンティティ マッピングを使用します。つまり、追加のチャネルは 0 で埋められ、追加のパラメータはありません

(2) ResNet - 34 B:  次元を調整する必要があるものには畳み込みマッピングのショートカットを使用します。次元を調整する必要がないものには恒等のショートカットを使用します。次元をアップグレードするときに使用します。1 * 1 畳み込み

(3) ResNet - 34 C: すべてのショートカットは 1 * 1 畳み込みを使用します (最良の効果ですが、より多くのパラメータが導入されるため経済的ではありません)

以下の表は、3 つのオプションのモデルが通常のモデルよりも優れていることを示しており、効果の順序は C > B > A です。

[表 3 ImageNet 検証セットのエラー率 (%、10 クロップテスト)]

A は次元を増やすときにパディングを使用してゼロを埋めるため、ショートカット学習が失われ、残差学習が実行されないため、B は A よりも優れています。

C の 13 個の非サブサンプリング残差モジュールのショートカットにはすべてパラメーターがあり、モデル機能が比較的強力であるため、C は B よりも優れています。

しかし、ABC はほぼ同じであり、アイデンティティ マッピングのショートカットにより劣化の問題を解決できることがわかります。


より深いボトルネック アーキテクチャ - より深いボトルネック構造

翻訳する

次に、より深いモデルを紹介します。トレーニング時間の制限を考慮して、ビルディング ブロックをボトルネック設計に変更します。各残差関数 F に対して、2 つの代わりに 3 つのオーバーレイを使用します (図 5)。これら 3 つの層はそれぞれ 1*1、3*3、および 1*1 畳み込みです。1*1 層は主に次元の削減とその後の増加 (復元) を担当し、残りの 3*3 層は入力を削減するために使用されます。と出力寸法。図 5 は、両方の設計が同様の時間計算量を持つ例を示しています。

パラメータなしの ID ショートカットは、ボトルネック構造では特に重要です。図 5 (右) のアイデンティティ ショートカットの代わりにマッピング ショートカットを使用すると、時間の計算量とモデル サイズが 2 倍になることがわかります。ショートカットは 2 つの高次元の端を接続するため、ボトルネック設計にはアイデンティティ ショートカットの方が効果的です。 。 の。

50 層 ResNet: 34 層ネットワークの 2 層モジュールを 3 層ボトルネック モジュールに置き換え、モデル全体が 50 層 ResNet になります。 (表1 )。追加の寸法については、オプション B を使用します。モデル全体に​​は 38 億 FLOP が含まれています。

101 層および 152 層 ResNets: 101 層および 152 層 ResNet を構築するには、さらに 3 層モジュールを使用します (表 1)。層の深さは大幅に増加しましたが、152 層の ResNet (113 億 FLOP) の計算量は、VGG-16 (153 億 FLOP) および VGG-19 (196 億 FLOP) よりもまだ小さいことは注目に値します。 FLOPs) たくさんあります。

50/101/152 層 ResNet の精度は、34 層 ResNet の精度よりもはるかに高くなります (表 3 および 4)。また、劣化の問題は観察されませんでした。すべての指標は深さの利点を裏付けています。 (表 3 および 4)。

精読

次の図に示すように、各残差ブロックでは 2 層の畳み込みが使用されなくなり、3 層の畳み込みが実装されます。

50 層残差ネットワーク: 34 層残差ネットワークの 2 つの畳み込み層を 3 つのボトルネック残差ブロックに置き換え、50 層残差ネットワークになります。ダウンサンプリングでは 1 * 1 が使用されます。畳み込み

 [表 4 ImageNet 検証セット上の単一モデルのエラー率 (%) (ただし、++ は、検証セット)

結論は

50/101/152 層の resnet の精度は 34 層の resnet の精度よりもはるかに高く、深刻な劣化の問題が解決されます。同時に、152 層の resnet の計算複雑さでも、VGG-16 や VGG-19 よりも小さいです。


最先端の手法との比較 - 最良の手法との比較

翻訳する

表 4 では、現在の単一モデルの最良の結果を比較しています。当社の 34 層 ResNet は非常に良好な結果を達成し、152 層 ResNet の単一モデルのトップ 5 検証エラー率はわずか 4.49% であり、以前の組み合わせモデルの結果よりもさらに優れていました (表 5)。深さの異なる 6 つの ResNet を 1 つの結合モデルに合成しました (結果を提出する際には 2 つの 152 層モデルのみが使用されました)。テスト セットのトップ 5 のエラー率はわずか 3.57% (表 5) であり、ILSVRC 2015 で 1 位を獲得しました。

精読

深さの異なる 6 つの ResNet を 1 つの結合モデルに合成します (結果を送信するときに 2 つの 152 層モデルのみが使用されました)。テスト セットのトップ 5 のエラー率はわずか 3.57% (表 5) であり、ILSVRC 2015 で 1 位を獲得しました。

[表 5 結合モデルImageNet テスト セットの上位 5 エラー率]


4.2. CIFAR-10 と分析 - CIFAR-10 と分析

翻訳する

私たちは、50,000 枚のトレーニング画像と 10,000 枚のテスト画像を含む 10 クラスの CIFAR-10 データセットでさらなる研究を実施します。トレーニング セットでトレーニングし、テスト セットで検証します。私たちは最良の結果を追求するのではなく、非常に深いモデルの効果を検証することに重点を置いているため、次のような単純なフレームワークのみを使用します。

Plain ネットワークと Residual ネットワークの枠組みを図 3 (中/右) に示します。ネットワークへの入力は、32*32 の画像からピクセル平均を引いたものです。最初の層は 3*3 畳み込み層です。次に 6n 3*3 の畳み込み層のスタックを使用します. 畳み込み層に対応する特徴マップは 3 種類あります: {32, 16, 8}. 各畳み込み層の数は 2n であり、それに対応するフィルターの数ははそれぞれ {16、32、64} です。ダウンサンプリングには strde が 2 の畳み込み層を使用します。ネットワークの最後には、グローバル平均プーリング層と、ソフトマックスを含む 10 クラスの完全接続層があります。合計 6n+2 の重み付けレイヤーが積み重ねられています。

ウェイトの減衰は 0.0001、運動量は 0.9 に設定され、He2015Delving のウェイト初期化と BN が使用されますが、ドロップアウトは使用されず、ミニバッチ サイズは 128 で、モデルは 2 つの GPU でトレーニングされます。学習率は最初は 0.1 で、反復 32,000 および 48,000 で 10 で除算されます。反復の合計数は 64,000 で、これはトレーニング/検証セットの分布 45,000/5,000 によって決まります。トレーニング フェーズでは、Lee2015deeply のデータ拡張ルールに従います。画像の両側の 4 ピクセルを塗りつぶし、塗りつぶされた画像またはそのランダムに塗りつぶします。水平方向に反転した画像の 32*32 クロップをサンプルします。テスト段階では、評価にはオリジナルの 32*32 画像のみを使用します。

n={3,5,7,9}、つまり 20、32、44、および 56 層のネットワークを比較しました。図 6 (左) は、単純なネットワークの結果を示しています。ディーププレーンネットワークの層数が増加すると、トレーニングエラー率も増加します。この現象は、ImageNet (図 4、左) および MNIST の結果と非常に似ており、最適化の難しさが確かに重要な問題であることを示しています。

図6(中)はResNetsの効果を示しています。 ImageNet (図 4、右) と同様に、私たちの ResNet は最適化問題をうまく克服でき、深さが深くなるにつれて精度も向上します。

さらに、n=18、つまり ResNet の 110 層を調査しました。ここで、初期学習率 0.1 は少し大きすぎてうまく収束できないことがわかります。したがって、学習率 0.01 の使用を開始しました。トレーニングのエラー率が 80% (約 400 回の反復) を下回った時点で、学習率を 0.1 に調整して戻し、トレーニングを継続しました。残りの学習は以前と同じです。 110 層の ResNet は良好に収束します (図 6、中央)。 FitNet や Highway などの他の深く狭いモデルよりもパラメーターが少ないにもかかわらず (表 6)、最良の結果が得られます (6.43%、表 6)。

精読

CIFAR-10 データセット:50 ワットのトレーニング セット、100 ワットのテスト セット、合計 10 カテゴリ

プレーンネットワークと残余ネットワークの実践を比較する

(1) 入力画像は32*32ピクセルで、この時の画像は前処理済み(各ピクセルから平均値を減算)

(2) 最初の畳み込み層は 3*3 で、6n を使用する畳み込み層は 3*3 です。特徴マップは (3232/ 16) です。 16/ 8*8)。合計 6n+2 の畳み込み層があります (最後の層はプーリング層です: 1 +2n、2n、2n、1)

(3) 畳み込みカーネルの数はそれぞれ 16/32/64 で、特徴マップの数は半分になり、チャネル数は 2 倍になります。

Q: ダウンサンプリング後、機能マップのサイズが半分になり、チャネル数が 2 倍になるのはなぜですか?

プーリングにより長さと幅が半分になるため、コンボリューション カーネルの数は対応するチャネルの 2 倍になります (詳細については「MobileNet」を参照)。

ダウンサンプリングではストライド 2 の畳み込みを使用し、最後にグローバル プーリング、10 個のニューロンとソフトマックスの完全に接続された層を追加します。

(1) 残差は 2 層のニューラル ネットワークによってフィッティングされます (各ショートカットは 3 * 3 の畳み込みで構成されます) 合計 6n 個あるので、合計 3n 個のショートカットがあります。

(2) ダウンサンプリングは 0 を加算します (ダウンサンプリング残差ありと残差なしの計算量は同じです)

(3) トレーニング プロセス中の正則化は 0.0001、動的量子化は 0.9、論文で提案されている重みは初期化され、BN はドロップアウトなしで使用され、バッチ処理は 128、初期学習率は 0.1、3.2w で、 4.8w の反復で 10 で割り、最終的に 6.4w でトレーニングを終了します。

(4) トレーニング セットを 4.5w トレーニングと 5k 検証に分割し、画像強調手法を使用して、画像の外側に 4 ピクセルを追加し、トリミング (水平反転画像強調) に 32*32 画像を使用します。テストするときは、32 * 32 の画像を使用してください。

[図 6: CIFAR-10 トレーニング。破線はトレーニング エラーを表し、太字はテスト エラーを表します。左:無地。 plain-110 のエラーは 60% を超えているため、表示されません。中央: ResNets。右: ResNets110 層と 1202 層。 】


レイヤ応答の分析 - ネットワークの各レイヤの応答分布を分析します。 

翻訳する

図7は層応答の標準偏差(std)を示しています。応答は、各 3*3 畳み込み層の BN の後、非線形層 (ReLU/加算) の前の出力です。 ResNets の場合、この分析の結果は残差関数の応答強度も明らかにします。図 7 は、ResNets の応答が、対応するプレーン ネットワークの応答よりも小さいことを示しています。これらの結果は、私たちの基本的な動機 (セクション 3.1)、つまり残差関数が非残差関数よりも 0 に近いことも検証します。図 7 の ResNet-20、56、および 110 の結果から、ResNet が深くなるほど応答振幅が小さくなることもわかります。使用するレイヤーが増えるほど、ResNets の単一レイヤーによる信号の変化は少なくなります。

精読

残留ネットワークは変更された入力です。応答の標準偏差を以下に示します。

[図 7: 10 層応答の CIFAR-標準偏差 (std)。応答は、BN 後および非線形性前の 33 層それぞれの出力です。上: レイヤーは元の順序で表示されます。下: 回答は降順で表示されます。 】

方法

BN処理により平均値が0に調整されています。標準偏差はデータの分散を測定します (標準偏差が大きいほど、応答も大きくなります)。応答は、BN 後とアクティブ化前の間で、各層が 3 * 3 の畳み込み層であることを示します。

結論は

(1) ResNets の応答は、対応するプレーン ネットワークの応答より小さい

(2) 残差関数は非残差​​関数よりも 0 に近い

(3) ResNet が深くなるほど、応答振幅は小さくなります。

(4) 開始層に近いほど出力が大きくなります


1000 を超えるレイヤーの探索 - ディープネットワーク

翻訳する

私たちは 1000 層を超える非常に深いモデルを調査しました。 1202 層のネットワーク モデルである n=200 を設定し、上記のようにトレーニングします。私たちの方法は 103103 層モデルの最適化は難しくなく、トレーニング エラー率 <0.1% (図 6、右) を達成し、テスト エラー率も非常に低くなります (7.93%、表 6)。

しかし、このような非常に奥深いモデルにはまだ多くの問題があります。 1202 層モデルのテスト結果は、110 層モデルのテスト結果よりも劣りますが、トレーニング エラー率は似ています。これは過剰適合が原因であると考えられます。このような 1202 層モデルは、小さなデータ セット (19.4M) には大きすぎます。このデータセットに maxout やdropout などの強力な正則化手法を適用すると、最良の結果が得られました。

この記事では、maxout/dropout を使用せず、単純に深く狭いモデルを設計して正則化を実行したため、最適化の難しさを心配する必要はありませんでした。ただし、実験結果は強力な正則化によって改善される可能性があり、これについては今後研究していきます。

精読

n を 200 とすると、つまり 1202 (6 * 200 + 2) の残差畳み込みネットワークは前のトレーニング方法と同じであり、誤差は 0.1 未満であり、劣化や最適化の困難がないことを示しています。

ただし、テスト セットのパフォーマンスは 110 層ほど良くなく、記事ではこれが過学習であることが示されています (モデルが深すぎてパラメーターが多すぎるため、この小さなデータ セットには必要ありません)。

中心的なタスクは劣化問題を解決することであるため、この論文では正則化に maxout またはdropout を使用しません。


4.3. PASCAL および MS COCO でのオブジェクト検出 - PASCAL および MS COCO でのオブジェクト検出

翻訳する

私たちの方法は、他の認識タスクに対して優れた一般化能力を示します。表 7 と表 8 に、PASCAL VOC 2007 と 2012、および COCO でのターゲット検出結果を示します。検出方法として Faster R-CNN を使用します。ここで私たちは、VGG-16 を ResNet-101 に置き換えることによってもたらされる改善点のほうを懸念しています。異なるネットワークを使用した検出の実装は同じであるため、より優れたネットワークからのみ検出結果が得られます。最も注目すべき点は、COCO データセットでは、COCO の標準指標 (mAP@[.5, .95]) で以前の結果と比較して 6.0% の増加を達成しており、これは 28% の相対的な改善に相当します。これはひとえに学習した表現のおかげです。

ディープ残差ネットワークに基づいて、ILSVRC & COCO 2015 コンペティションの ImageNet 検出、ImageNet ローカリゼーション、COCO 検出、COCO セグメンテーションで 1 位を獲得しました。

精読

[表 7 PASCAL VOC 2007/2012 テスト セットで Faster R-CNN を使用したターゲット検出 mAP (%)。より良い結果については、付録を参照してください。 】

[表 8 COCO 検証セットで Faster R-CNN を使用した物体検出 mAP (%)。 】

ディープ残差ネットワークに基づいて、ILSVRC & COCO 2015 コンペティションの ImageNet 検出、ImageNet ローカリゼーション、COCO 検出、COCO セグメンテーションで 1 位を獲得しました。


論文に関する10の質問

Q1: この論文はどのような問題を解決しようとしていますか?

この論文は主にディープ ニューラル ネットワークの学習問題を解決します。ネットワークの深さが深くなるにつれて、モデルの効果は悪化するため、この論文では、ディープ ニューラル ネットワークをトレーニングするための残差学習方法を提案しています。

Q2: これは新しい質問ですか?

それは新しい問題ではなく、最適化の問題です

Q3: この記事ではどのような科学的仮説を検証したいのですか?

ディープ モデルの劣化問題を研究する非線形層が蓄積すると、線形マッピングの学習が困難になる可能性があります。

Q4: 関連する研究にはどのようなものがありますか?どのように分類すればよいでしょうか?このテーマに関するこの分野の注目すべき研究者は誰ですか?

  • 偏微分方程式 (PDE) を解くには、通常、マルチグリッド法を使用してシステムをマルチスケールのサブ問題に再定式化し、解決します。数学の問題。
  • 付録では、著者はターゲット検出とターゲット測位における ResNet の応用に関する研究を行っています。

Q5: 論文に記載されている解決策の鍵は何ですか?

ResNet は実際に、ショートカット接続を通じて x を後続の層に直接渡すため、ネットワークは恒等変換を簡単に学習できるため、ネットワークの劣化の問題が解決され、学習がより効率的になります。

Q6: 論文内の実験はどのように設計されましたか?

1.イメージネット2012:

  • まず、プレーン ネットワークと残差ネットワークを別々にトレーニングし、トレーニング セットとテスト セット内の異なる層のエラーと、それらが劣化しているかどうかを比較します。
  • 次に、アイデンティティとマッピングのショートカット
  • 次に、深さを深め、改善された残差ネットワークをトレーニングし、エラー率を評価します。
  • 最後に、VGG や GoogLeNet などの優れた方法と比較します。

2.CIFAR-10:

  • まず、プレーン ネットワークと残差ネットワークを別々にトレーニングし、トレーニング セットとテスト セット内の異なる層のエラーと、それらが劣化しているかどうかを比較します。
  • 次に、より深いモデルを研究します

3.パスカルとMSココ:

VGGとの比較

Q7: 定量評価に使用するデータセットは何ですか?コードはオープンソースですか?

ImageNet2012、CIFAR-10、PASCAL VOC 2007,2012、COCO

オープンソース

Q8: 論文内の実験と結果は、検証する必要がある科学的仮説を十分に裏付けていますか?

それをサポートし、劣化問題を解決し、1位を獲得しました。

Q9: この論文はどのような貢献をしますか?

1. ディープモデルにおける劣化問題を研究し、ResNet ネットワークを提案する

2. 学習パラメータを追加せずに深層モデルの学習を支援するために、残差学習が提案されています。

3.ResNet は、ターゲットの検出とターゲットの位置決めのための最適化アイデアを提供します

Q10: 次は何ですか?さらに発展させられる作品はありますか?

1. ネットワークの収束速度の問題については、さらに調査する必要があります。  プレーン層 ディープ プレーン ネットワークの収束率は指数関数的に減衰し、トレーニング エラー率の低下に影響を与える可能性があると推測されます。この最適化が難しい理由については、今後の研究で研究される予定です。

2. 深刻な劣化の問題を解決しました。  レイヤ 1202 での ResNet の最適化はもはや明らかではありませんが、低下しています。


これで、この論文「画像認識のための深層残差学習」の研究を終了します。この論文の付録では、ターゲットの検出とターゲットの位置決めに関する ResNet の研究について説明しています。興味のある学生はぜひご覧ください~

コードの再現については、ResNet コードの再現 + 非常に詳細なコメント (PyTorch) を参照してください。

次の記事のプレビュー: DenseNet

おすすめ

転載: blog.csdn.net/weixin_43334693/article/details/128401720