知識シナジー共同深い知識の監督を深く監督

畳み込みニューラルネットワーク(CNNs)は、第AlexNetと比べて、より深く、より複雑になってきています。しかし、人気のトレーニングプログラムは、ネットワークの最後の層、およびエラーメッセージの拡散層に監修を増加させた従来の方法を、続きます。この紙プレゼントは、トレーニングの計算量を増大させることなく、推論を目的と共同監督(DKS)メソッドの新たな深い知識は、CNN画像分類タスク汎化能力を改善しました。教師付き学習プログラムの深さに触発され、私たちいくつかの中間ネットワーク層上の第1の追加の補助枝監督。補助監督の適切な使用は、ある程度のモデルの精度を向上させることができたとき、私たちは、さらに知識の確率が動的訓練の可能性を改善するための新しい正則化法として学習バックボーンネットワーク分類器に接続されます探ります。私たちは、アカウントに監督の枝の間の知識のマッチングを取る新しいコラボレーション損失モデルを提案しました。興味深いことに、それは同じタスクと同様、各トレーニングの反復、動的協調プロセスで両方向に上から下とボトムアップに一致知識集約型の操作を組み合わせることができます。私たちはその訓練が良く、対応するモデルよりも常に表示されたモデルの結果を用いて評価したDKS画像分類データセットの最新のCNNアーキテクチャを使用しています。例えば、ImageNet分類基準に、私たちのResNet-152モデルは、1.47パーセントの精度のベンチマークモデルよりも性能が優れています。

//github.com/sundw2014/DKS:コードが利用可能athttpsです。

1.はじめに

ディープ畳み込みニューラルネットワーク(CNN)は、伝統的な機械学習方法に比べて、トレーニングデータに合わせて、より良い学習能力パラメータの多くを有することができます。セットには、大規模なデータ、トレーニングリソースを増やすなど、強力で効率的なハードウェア・プラットフォームの開発ツールと、CNNsは、視覚認識タスク[21,26,7,42]の様々な主要な学習モデルとなっています。より説得力性能を得るために、CNN [39,10,47,17,44,15,1]が[21]精液AlexNetと複合、8層を有し、かつ2012よりも深くするように設計されImageNetに分類競争が[37]、画期的な成果を達成しました。こうした超慎重なパラメータチューニング[39]などの近代的なCNNの様々なエンジニアリング技術、の普及にもかかわらず、データは、10,17,44 [[44、49]正を示し、かつ効果的な標準化[18,9]と複雑な接続パス15,1]はネットワークトレーニングを簡素化するために、彼らのトレーニングは依然として困難です。

 

図:提案された方法の説明。図では、我々はいくつかの中間バックボーンネットワーク監視の枝の上に3つの補助層を追加します。知識としてクラスベースのトレーニングデータの分布の各分岐出力確率、。我々は、知識を計算する出力ノードを表すために円を使用し、それらの間の一致ペアを達成するために協調損失項目を提案しました。

 

 

我々は注意その最も高度なモデルCNNなどResNet [10]、WRN [47 ]、DenseNet [17]、ResNeXt [44]、セネト[15]、DPN [1]、MobileNet [14,38] とシャッフルネット[51 27] AlexNet研修プログラムを採用しました。より具体的には、トレーニング、指導の過程においてのみ、ネットワークの最後の層、およびそれ以前のレベルからの最後の層のバックプロパゲーション訓練誤差に加えました。ネットワークの深さに起因して、ブロックを構築し、特に長い層接続パスと監視層を持っている人のために、不十分な学習のリスクを引き起こす可能性があり、ネットワークトポロジーの複雑さを増すこと。WEN [41]及び[22]提案方式の深さを学習する独立この問題を解決することができる監督しました。Szegedyら[41]二つの補助分類器の推奨GoogLeNet中間層に添加しており、一方、Leeら[22]ネットワークのすべての隠された層に二次分類器を追加することを提案しました。これら2つの方法は、補助分類器の異なるタイプを使用しているが、ネットワークのトレーニング、それらは体重減少にすべてのセカンダリトレーニング分類器の損失と分類器の接続損失と最後の層で同一の最適化戦略を使用しました。このメソッドは、問題を解決し、消失勾配収束問題を克服することで大きな効果があり、古い分類深ネットワークの一部を訓練するために使用することができます。しかし、現代のCNNのバックボーンネットワーク通常は収束の問題は、めったに補助分類器を使用していません。最近、Huangら[16]は、二次元マルチスケールCNN構造を提案し、その画像分類コスト認識の輸出分類器の早期使用。[16]において、経験的な結果は、単純に、単に補助クラシファイア早期技術CNN層(例えば、ResNet又はDenseNet)原因の性能低下が、建築設計の観点から、マルチスケールに取り付けたことを示し集中的な機能や接続と組み合わせてこの問題を軽減することができます。

この論文レビュー画像分類タスクのための教師あり学習法の深さは、我々は、分類精度を向上させるために、目標として最新のCNNを訓練するために統合監督(DKS)メソッドの新しい深い知識を提案し、推論過程にありません追加の計算コストの導入。図に示すように、上述した[41,22,16]の仕事に触発され、追加の補助スーパービジョン枝の上にある中間層の間に、我々最初のネットワークトレーニング。結果はうまく設計された補助分類器はある程度の最新CNNsの精度を向上させることができることを示しています。補助監督情報は、現代CNNsの訓練を標準化するのに役立ちますことを実践ショー。我々はさらに補助分類器の学習を使用して動的な知識を探るように、我々は、トレーニングデータの評価、すなわち(、改善のためのパフォーマンスがあり、まだ部屋、すべての規制の枝のバックボーンに接続された情報との間に明確な相互作用を実装することにより、以下のことを推測しますクラス確率出力)と新しい規則の訓練を改善するための可能性として、最後のクラスフィルターのネットワーク層に添加します。最適化プロセスでは、基本的な訓練の損失は損失を考慮に監督の枝の間で相乗的知識マッチングペアを取り、新しいコラボレーションの損失が追加されます。この損失は、同じ協調タスクの動的プロセスと同様、各ステップにおいて、トップダウンおよびボトムアップトレーニングの方向にそれほど集中的な知識ペアワイズマッチング演算とすることができます。我々は、画像データセットの2つのよく知られた分類のために([14] [17] DenseNet、WRN [47]、[10] ResNet含むとMobileNet)最も人気のあるCNNアーキテクチャを使用し評価しました。結果は、それぞれのベースラインモデル、大幅に向上精度で訓練されたプロセスモデルに比べて、それを示しました。例えば、挑戦ImageNet分類データセットにも非常に深いResNet-152アーキテクチャは、トップ1は、1.47パーセントの正確さを増加させました。

2.関連研究

ここでは、文学関連のメソッドを要約し、それらの間の関係との違いを分析するために私たちのメソッドを使用します。

深さは、学習を監督しました。

2014年には、教師付き学習方法の深さ[4122]を発行しました。これは、いくつかの古い深いCNN画像分類タスクに収束問題を解決するための補助分類器の隠れた層を使用してネットワークに接続されています。最近、また、そのようなエッジ検出[45]、ヒトのポーズ推定[31]、シーン解析[54]、セマンティックセグメンテーション[53]、位置決めキー[23]、自動配線などの他の視覚的タスクを識別するために使用されている[29]そして、旅行時間推定[50]。これらの新しいアプリケーションの最近の進歩が、現代のCNNの分類モデルにもかかわらず、めったに補助分類器を使用されていません。説明したように[16]、初期の最新のネットワーク層に取り付けられた直接単純な補助分類器損なう性能(例えばResNet又はDenseNet)。本論文でプレゼント新しい深さDKSは、分類精度を向上させ、高度CNNの訓練で画像分類タスクのための学習方法を指導しました。
知識移転。
近年では、知識移転(KT)は、より多くの研究者を集めています。先駆的な仕事は、より小さな学生ネットワークを調節するためにどの大軟出力モデル教師または教師トレーニングモデルセットに、知識蒸留(KD)[11]です。[36]、[46]及び[48]知識のさらなる中間特性表現も抽出処理プロンプトを高めるために使用することができることを示します。KD技術はまた、画像分類[28]のためのマルチストリームCNN CNN低精度の性能を改善するために、例えば、他のタスクに使用され、ビデオモーション認識のために設計された[5]されています。そして、学生KDモデルとそのさまざまなバリエーションの先生方からのみの知識伝達モデル、[52] KDを拡張するためには、知識も助けモデル教師の精度を向上することが、相互学習戦略によって前方学生モデルのショーを置きますその後、アイデアは、再識別するために人々[55]とのジョイント分析と人間の姿勢推定[32]のためです。微調整の組み合わせにより、LiとHoiem [24]とKD、古い知識、新しい視覚的なタスクに対処するために訓練されたニューラルネットワークモデルの使用を維持しながら、問題を解決します。[12]に改良された方法を提案しました。ジョーら。[35]半教師画像分類のための共同訓練方法の深さを示します。彼らのアプローチでは、すべてのモデルでは、学生とみなされ、異なるデータビューは対立トレーニングのサンプルが含まれて使用されています。本論文で提案する包括的な方法の深い知識は、焦点にある単一のニューラルネットワークにおける知識移転の新しい形態である、フォームは、従来の方法とは異なります。

CNNの正規化。

ReLU [30]は、ドロップアウト[40 ] とBN [18]は、現代CNNsへの鍵フィッティング克服または収束を加速することが判明しました。したがって、最近改良された変異体[9,43,4,8,6]の数を作りました。既存の包括的なトレーニングデータのサイズを増加させるために(例えば、ランダム作物、フリップ、ズーム、色及び線形補間演算など)変換を増強することによって、また、[21,13,41,49]オーバーフィットを低減することができます。また、事前にトレーニング[39]、ニューラルネットワークの訓練の初期段階を助けることができます。これらの方法は広く近代建築の設計CNNと訓練に使用されています。我々のアプローチと、彼らは全会一致です。3、最高のトレーニングエラーで訓練されたモデルが使用さDKSが、私たちのアプローチは、正則のように振る舞うべきであることを示す最低のテスト・エラー、およびオーバーフィッティングResNet-18のを減らします。

3.当社のアプローチ

ここでは、その洞察力とその実装の詳細を強調し、我々のアプローチ式を記述します。

教師付き学習の3.1深さ

私たちの方法以来教師付き学習プログラムベースの深さに基づいて、私たちはそこから開発に着手しています。CNNモデルを学ぶためのパラメータとしてWcとL層をしてみましょう。集合D = {(XI、YI)|1≤i≤N} Nは、K画像クラスからのサンプルを訓練注釈付きデータ・セット。ここで、xは、i番目の学習サンプルであり、Yiが(ワンホットベクトルの次元Kを有する)対応するタグです。K次元の出力ベクトルの学習サンプルモデルのセットF(WC、XI)。標準のトレーニングプログラムについては、増加の監督とだけネットワークの最後の層では、最適化の目標は、次のように定義することができます

 

 

 

損失Lcは、Rは正則化項です。

Hは、クロスエントロピー損失関数です。

 

 

この最適化問題は、[3,19,2]を解決するためにSGDおよびその亜種によって容易に行うことができます。私たちが知る限りでは、ほとんどこの最適化を採用しているモデルのトレーニングに[21,39,10,47,17,44,14,38,15,1,51,27,56,34,25] CNNをよく知られていますプログラム。対照的に、明確に訓練プロセスに記載教師あり学習プログラムテキスト[22]の深さは、ネットワークのすべての隠された層のための補助分類器を増大させます。LetWa = {WAL |1≤l≤l-1}の各隠された補助分類器セットのネットワーク層の上部に取り付けられました。ここで、WALは、隠された層LTH補助分類器を表すパラメータに加えます。補助CLAS-sifierのLH K次元出力ベクトルに(WAL、WC、XI)fを得ました。一般性を失うことなく、最適化の目標深さは、スキームは以下のように定義することができます教師あり学習

ラを失った二次損失は、すべての二次分類器のトレーニングセットで評価し、重み付けされ、αL損失はl番目の補助分類器と加重です。ラ補助損失を導入することにより、教師付き学習プログラムの深さは、ネットワークを作るだけでなく、トレーニング過程における監督の最後の層から中間層勾配監督から採取することができます。これは収束[22、41]を強化するために、勾配を消える問題を克服するために考えられています。

最適化目標(3)とみなすことができる現代的な仕事[41]、などがGoogLeNetが提案されている二つの補助分類器の中間層を追加するため、特殊なケースです。もう一つの違いは、数量詞の二次構造ということです。実験では、[22]にゼロアナログポリシー分類器訓練プロセスの動的制御αLを有する値を使用して、固定値を有するαLより複雑な分類の[41]の使用。私たちは、実装に固定値αLを使用して最も先進的なトレーニングCNNsで、ゼロ政策とセットαL固定値は、同様の性能を持っていることがわかりました。

3.2。監督の共同深い知識

今、私たちはDKS式を提示し、教師付き学習法の深さの発展の新たな視点から。DKSはまた、いくつかの補助クラシファイア隠れ層を使用してネットワークに接続されているが、従来の方法とは異なるが、それは監督のすべての枝の間の明示的な情報交換を導入することです。具体的には、DKSの分類は、ネットワークトレーニングを調整するためにすべてのそれらの動的な学習(すなわち、トレーニングデータ出力クラスの推定確率)の知識を使って。その中心にはそれほど最適化、より効果的なものをすべて分類した後、ネットワークに接続されている骨の縁との間のマッチングの知識集約型ペアを可能相乗効果の損失、新しい寄与は、です。
このセクションでは、我々は最後の1のコメントに従います。私たちはいくつかの隠された層に二次分類器を追加します。A⊆提供{1,2、···、L- 1}は、補助分類器の付加の位置を示す、レイヤインデックスの所定のセット| A |となります。AのためのリストstlayerIndexネットワークはネットワーク分類器に接続されたすべての位置、及び副生クラシファイアを含む分類器を示し集合A =A∪{L}、。層インデックスの所定のセット、整合動作の対の活性化を示す位置情報は、| B |別のB⊆A×Aが設けられています。
さて、定義(3)によると、私たちの最適化目標のDKSは次のように定義され

 

FM、FN M及びNは、分類器出力の確率クラスであることを特徴とする請求、訓練サンプルがギャラリーで評価し、MからβMN減量マッチングエッジ知識のN対に、我々はのSoftMaxクラス確率関数を用いて算出。実験では、最適化(2)と私たちの方法に比べて(3)で追加パラメータの最適化を超えていないことをその手段、αL= 1、βmn= 1を設定し、そのまま保管してください。協調喪失、二つの分類器との間の一致の知識は、ソフトターゲットと交差エントロピー損失関数を補正します。原理的には、ラベルのソフト出力として確率的分類器Mの現在のクラス、アナログ力分級分級N M(ソフトラベルと考えられる、勾配が逆伝播WRT算出されていない一定の値です)。このように、現在の知識が学習分類子メートルを変換することができます - 私たちは、指向監督を呼び出します。興味深いことに、L-動的協力は、すべての監視枝のバックボーンに接続されている間、同じタスクに類似している既知の稠密エッジマッチングペアを可能にしました。

 

知識のペアが一致します。

对于DKS,一个关键问题是如何配置知识匹配对(即set B)。我们提供了三种选择,包括自顶向下、自下而上和双向策略,如图2所示。采用自顶向下的策略,只利用与后骨网络深层相连接的分类器的知识来指导前几层分类器的训练。自下而上的策略逆转了这种设置,双向策略包括了这两种策略。对比研究(见实验部分)表明,双向策略具有最佳的性能,因此我们在最后的实现中采用了它。

 

辅助分类器。DKS的另一个基本问题是如何设计辅助分类器的结构。尽管深度监督学习方案已经证明在为图像分类任务训练一些旧的深度网络时有效地解决了收敛问题[22],但最先进的cnn,如ResNet和DenseNet,即使对于具有数百层的模型,也不存在收敛问题。有鉴于此,直接将简单的辅助分类器添加到网络的隐藏层可能没有帮助,这已经被[16]和[53]的经验验证。从CNN架构设计的角度来看,[41]和[16]建议添加复杂的辅助分类器到网络的一些中间层来缓解这个问题。随后,在实验中,我们在网络训练过程中,在一定的中间层上附加了相对复杂的辅助视觉分支。具体地说,每个辅助分支由与骨干网中相同的构造块(例如ResNet中的剩余块)组成。如[16]中的经验验证,早期层缺乏有助于图像级分类的粗糙级特征。为了解决这个问题,我们使用启发式原则,使得从输入到每个分类器的路径具有相同数量的下采样层。对比实验表明,这些精心设计的辅助监控分支可以在一定程度上提高最终模型的性能,但增益相对较小。通过提出的协同损失,实现了稠密的知识边缘匹配,取得了较好的效果。图3显示了一些说明性的结果,更多的结果可以在实验部分找到。

与知识蒸馏比较。

在DKS中,成对知识匹配的灵感来源于知识转换中常用的知识边缘提取思想[11、48、36、46、28、52、24、12、35]。在这里,我们澄清他们的分歧。首先,我们的方法和他们的不同。这条研究路线主要解决了学生-教师框架下的网络压缩问题,但我们的方法侧重于通过进一步开发深度监督学习方法来推进最新CNNs的训练。第二,我们的方法在公式上与它们不同。在学生-教师框架下,通常假设大的教师模型是预先可用的,并定义优化以使用教师模型的软输出来指导较小的学生网络的训练。也就是说,教师模型和学生模型是分开优化的,二者之间没有直接关系。在我们的方法中,辅助分类器共享骨干网的不同层次的特征层,并与连接到最后一层的分类器联合优化。本文还对它们的性能进行了实验比较。
据我们所知,DKS是第一个将深度监督学习和知识提炼方法紧密结合起来的工作,能够在一个深度CNN模型中的不同层之间传递当前所学的知识。在补充材料中,我们提供了一些理论分析,试图更好地理解DKS。

4.1。CIFAR-100实验

CIFAR-100数据集[20]包含50000个训练图像和10000个测试图像,其中实例是从100个对象类中提取的32×32彩色图像。我们使用与[10,22]相同的数据预处理方法。在训练中,首先在图像两侧填充4个像素,然后从填充图像或其水平翻转中随机抽取32×32个作物,最后用每个通道的平均值和std值进行归一化。为了评估,我们在原始大小的测试图像上重新移植错误。骨干网和实施细节。我们考虑了四种最先进的CNN架构,包括:(1)深度32和110的ResNets[10];(2)深度40/100和增长率12的DenseNets[17];(3)深度28/28和加宽因子4/10的WRNs[47];(4)MobileNet[14]如[52]所用。我们使用作者发布的代码并遵循标准设置来训练每个骨干网。在训练过程中,对于ResNets和MobileNet,我们使用带动量的SGD,将批大小设置为64,权重衰减为0.0001,动量设置为0.9,训练点数设置为200。初始学习率为0.1,每60个阶段除以10。对于DenseNets,我们使用带有Nesterov动量的SGD,将批大小设置为64,权重衰减为0.0001,动量设置为0.9,训练点数设置为300。初始学习率设为0.1,并除以总训练时段数的50%和75%时的10。对于WRNs,我们使用带动量的SGD,将批大小设置为128,权重衰减为0.0005,动量设置为0.9,训练点数设置为200。初始学习率设置为0.1,并在60、120和160个阶段除以5。受[41,16]的启发,我们在这些CNN结构的某些中间层附加了两个辅助分类器。具体来说,我们在具有下采样层的对应构建块之后添加每个辅助分类器。所有辅助分类器都具有与骨干网相同的构造块、全局平均池层和完全连接层。不同之处在于构建块的数量和卷积滤波器的数量(详见补充材料)。所有模型都是在使用1个GPU的服务器上训练的。对于每个网络,我们运行每个方法5次并报告“平均(std)”错误

结果比较。结果总结在表1中,其中基线表示标准训练方案,DS表示使用我们设计的辅助分类器的深度监督学习方案[41,22]。一般来说,利用我们设计的辅助分类器,DS在所有情况下都比基线方法提高了模型的准确率,其准确率从0.08%提高到0.92%。相比之下,我们的方法在所有网络上的性能最好,给DS带来至少0.67%和最多3.08%的准确度增益。随着网络的深入(如ResNet-110和DenseNet-100)/更宽(如WRN-28-10)/更小(如MobileNet),我们的方法也比所有同行有显著的精度改进。这些实验清楚地验证了该方法在训练最新CNNs时的有效性。

4.4。讨论
虽然实验中使用的CNNs具有良好的结构块设计,提高了特征连接路径的灵活性,并显示出稳定的收敛性,但与标准训练方案和DS相比,我们的DKS可以显著地改善训练效果。这首先得益于在网络的中间层添加适当的辅助分类器,但我们认为,这更得益于所提出的协同损失,即在连接到网络的所有受监督分类器之间实现全面的成对知识匹配,增强学习的特征表示。另一方面,我们为模特训练提供大量的时间。对于站姿,基线ResNet-18模型在8 gpu服务器上训练约20小时(SSD用于加速数据访问过程),而我们的方法需要约37小时,几乎是训练时间的两倍。另外,DS的训练时间与我们的方法基本相同。我们认为这主要与辅助分类器的数量及其复杂性有关。因此,在所需的培训时间和预期的准确性改进之间存在一个权衡。要获得更大的精度增益,需要辅助分类器更加复杂,而简单的分类器往往会降低模型的精度。由于增加辅助分类器的数目并不总是带来更高的准确率增益,如我们的消融研究所示,我们认为目前增加训练时间是合理的。更重要的是,所有的辅助分类器在推理阶段都被丢弃,因此没有额外的计算开销。

5。結論
本論文では、教師付き学習の研究の深さを見直し、新たな深さが最適化DKSを教師あり学習提案します。新しいコラボレーション損失紹介し、損失は、すべての教師分類器のトレーニングアカウントの相乗効果にネットワークに接続されているペア間の集中的な知識の一致を取ることによって調整されています。二つの既知画像分類タスクに実験多数の方法の有効性を検証することです。

 

 

おすすめ

転載: www.cnblogs.com/happytaiyang/p/12418904.html