注目機構+ ReLU活性化機能:活性化関数の適応パラメータRELU

本稿でレビュー伝統的な活性化機能と注目のメカニズムのいくつかは、解釈「注意機構の下で活性化関数」、即ち適応パラメトリック線形補正部(パラメトリック線形整流器からユニット適応的APReLUを)


1.機能を有効にします

アクティベーション機能は、役割非線形人工ニューラルネットワークであるコンポーネントの人工ニューラルネットワークの一つのコアです。図に示すように、我々はまず、それぞれシグモイド活性化関数、双曲線正接ReLU活性化機能と活性化機能、など、最も一般的な活性化機能のいくつかを、確認します。

勾配はTANHシグモイド活性化関数の範囲と活性化関数は、(0,1)および(-1,1)。多くの層がある場合には、人工ニューラルネットワークは、問題に勾配が消滅する可能性があります。グラデーションReLU活性化機能は、広く使用されているので、近年では、うまく勾配や勾配爆発の消失の問題を回避することができ、ゼロまたは1です。

しかし、ReLU活性化機能には欠点が残っています。人工ニューラルネットワークの訓練の時に、状況のすべての特性はゼロ未満遭遇した場合、出力のReLU活性化機能はすべてゼロです。電車の中で今回は失敗しました。これを回避するために、研究者は漏洩ReLU活性化機能を提案し、以下ゼロにゼロ機能セットよりも、未満、例えば小さな係数を乗算することを特徴とゼロ、0.1、および0.01になります。

漏洩ReLUでは、係数の値を手動で設定されています。しかしながら、係数セットを手動ホーカイ明らは、パラメトリックReLU活性化機能(パラメータRELU活性化機能、Prelu活性化機能)を提案し、従って、この係数をパラメータとして設定され、最適ではないかもしれない訓練された人工ニューラルネットワークで得られます一緒に訓練プロセスおよびトレーニングの勾配降下法を用いて、他のパラメータを持ちます。しかし、特性Prelu活性化機能がある:トレーニングプロセスが完了すると、Prelu係数の関数が一定値となる活性化。換言すれば、全ての試験サンプルについて、係数値のPrelu活性化機能は同じです。

ここでは、おそらくいくつかの一般的な活性化機能を紹介します。それは、これらの機能を有効に間違っては何ですか?いくつかの活性化関数の上に用いた人工ニューラルネットワーク、またはこれらのいくつかの活性化関数を組み合わせた後、その後、人工ニューラルネットワークの学習が完了した場合、すべての試験サンプルのための試験サンプルに適用したとき私たちは、考えることができます非線形変換を使用して同じです。すなわち、全ての試験サンプルは、同じ非線形変換を経験します。これは、比較的柔軟性の方法です。

ドットと小さな正方形の散布図に学習によって得られた高レベルの機能スペースの人工ニューラルネットワークを表し、左側の我々散布プロットは、散布図の右側に、元の特徴空間を表す場合、以下に示すように2を表しF、G及びHに異なるカテゴリーのサンプルの種類、非線形関数を表します。これらのサンプルは、同じ非線形関数によって、元の特徴空間レベル特徴空間を変換するために実装されています。これらのサンプルについて、非線形変換は、それらが正確に同じ画像を経験することを言い換えると、「=」を意味します。

そこで、我々は、各サンプルの特性に応じて、個別に各サンプルに、それぞれの非線形変換のためのサンプル経験の異なる活性化関数のパラメータを設定することができますか?APReLU活性化関数のフォローアップ記事が導入されるように、これを行います。 


2.注意のメカニズム

古典スクイーズ・アンド・励起ネットワーク(セネト)を導入するために、本明細書APReLU活性化関数リファレンス、セネトは注目機構下クラシック、深いニューラルネットワークアルゴリズムです。以下に示すようにセネトは動作します:

ここでの考え方でセネトが内在説明します。多くのサンプルについて、図チャネルの様々な特徴の重要度が異なる可能性があります。例えば、チャネル特性チャンネル2の非常に重要な機能のサンプルは重要ではありません。サンプルB 1のチャネル特性は重要ではありません、チャンネル2つの機能が重要である。したがって、この時点で、サンプルAのために、我々は機能に焦点を当てるべきですチャンネル1(高い重量重み1を与える、すなわち、チャネル特性);逆に、サンプルBのために、我々は、特徴チャネル2(すなわち、より高い重量右固有チャネル2を与えられる)に焦点を当てるべきです。

この目的のために、小さなセネトは完全にネットワーク、重みのセットを学習することによって得られた重み係数、前記各チャンネルの元の加重を介して接続されています。このように、(トレーニング及びテストサンプルを含む)各サンプルは、チャネル自体の様々な機能を重み付けするための重みの独自のセットを有しています。これは実際には、チャネルの重要な特徴を指摘フォーカス機構であり、それにより高い重みを与えます。


3.適応パラメトリック線形補正部(APReLU)活性化関数

APReLU活性化機能は、本質的には、セネトとPReLU活性化関数の統合です。セネトでは、重みを学習することによって得られる小さな重みの完全に接続されたネットワークは、各チャネル特性の加重されます。APReLU活性化機能も小さく完全接続ネットワークを重み付けすることによって得られ、係数PReLUは、重い重量の、すなわち負の部分を活性化された場所の関数としての重みをこのように設定。基本原理APReLU活性化機能は、図の下に示されています。

我々はAPReLU活性化機能、形態及び非線形変換の関数でPReLU活性化機能は全く同じであることがわかります。唯一の違いは、得られた小完全に接続されたネットワークの学習により、負の特徴ウェイトにおける重み係数と、APReLU活性化関数です。人工ニューラルネットワークAPReLU活性化機能を使用する場合(以下に示すように)、各サンプルは、すなわち、ユニークな非線形変換を独自の重み付け係数を有することができます。一方、入力及び出力特性は、図APReLU図アクティベーション機能がAPReLUが簡単なアルゴリズムを学習既存の深さに埋め込むことができる意味し、同じサイズを有しています。

要約すると、各サンプルは、非線形変換の独自のセットを持つことができるようにAPReLU活性化機能は、非線形変換のより柔軟な方法は、パターン認識の精度を向上させる可能性を有する提供します。

 


リファレンス

趙M、忠S、フーX、ら。故障診断[J]の単位線形適応パラメトリック整流深い残留ネットワーク。産業用電子機器、2020、DOI上のIEEEトランザクション:10.1109 / TIE.2020.2972458。 

https://ieeexplore.ieee.org/document/8998530/

 

おすすめ

転載: www.cnblogs.com/uizhi/p/12452760.html