それのためにもつれない畳み込み式を行います!0式フィードネットワーク畳み込み詳細な分析は、前に完全にニューラルネットワークを接続します!

記事」に加入番号「販売孟八尾Xiの小さな家」から転載記事のそれのために行うもつれない畳み込み式!完全に接続されたニューラルネットワークの前に0式給電ネットワーク畳み込み深さ分析が。 "


(:з「∠)_こんにちは〜あなたの小さな夜の最後に唾を吐く泡が〜ほとんど不安障害に苦しんで、それが数日間にドラッグ小さなサンセットや残業プロジェクト、数日前には、_ドラッグを起草します

畳み込みニューラルネットワークについて、小さな夜は畳み込みから、それについて話をしません。複数のファンでも知っているでは、ほとんどの奇妙な質問のように、「なぜ、相互相関ニューラルネットワークを呼び出さないニューラルネットワークコンボリューション」に答えることができなかった招待、またはされた、意義畳み込みニューラルネットワークのコンボリューションの前に私に尋ねましたCNNはすぐにそれを書くために(私が(//∇//)\のように、世界のセーブ行きたかったと言う\

私たちは簡単にマシンの正面から開始したモデルを学びます。リコール前に完全にフィードフォワードニューラルネットワークに接続されたN * N * N回言及されている、前の記事小さな夜は完全に接続隠された層フィードフォワードネットワークのために話を聞きました:


V2-b9c09eb1ee8d9a1e80de1d75617dcbc8_b.jpg


ここでは、単純なフロントとリアの2つのカスケード分類器として見ることができ、前の層の分類器の出力は、その後明らかに、分類器の入力層の各先行層の分類器出力隠れユニットの(すなわち、各)である私たちが学んだの分類器の層の前に、あること、クリアされていないという意味があるという未知の意義カテゴリの分類!そして、分類器の層は、分類器が取得し、未知のカテゴリの前で直接定義された私たちの最終的な出力のカテゴリを学ぶことです!栗のために。

例えば、入力画像です。

v2-95a7176d3b0164acc6d9ae9e200cf95c_b.jpg


この仮定は、万個の画素があるさ100枚の* 100の画像、です。0〜255の各画素値。

私たちは人間の特性を定義したくない場合、あなたは元の画像を指示したいと想像すると、イメージがこのカテゴリに犬が含まれているかどうかを分類するために失われています。次いで入力層10000、すなわち万の機能に時間ディメンション対応は、各特徴点は、画素の値です。

私たちのマシンは、隠された層の言葉なしでモデルを学習した場合:

v2-3beb01bcea8ba51543896cc27a7d2949_b.jpg


その後、モデルは、明らかに「犬ではない」2つの最終カテゴリに直接各画素に接続されています。しかし、我々はまた、それについて少し考えるを知って、実際には、各画素の値は、犬ではなく、無接続(あなたはこの画素が黒であると言うことはできません(0の値)と、犬は、同じ画素であると言います、ピクセルは白(値255)は、このピクセルは、犬の体ではない説明することはできませんです。)ので、明らかに意思決定に、各ピクセルの特性値を直接行うことは、それは非常に飛ぶことはありませんされ、犬ではありません!(各特徴カテゴリに関連する妹のああを持っています)

しかし、我々はそれの隠された層を追加した場合?この状況は良く、その後ではないでしょうか?

v2-4a808a73cb334096136891f9094d46c5_b.jpg

前述したように、想像して、プラス隠された層、層モデルは、未知のカテゴリを学ぶことができ、そしてこれらのカテゴリは、ピクセル強い相関を行うことができます!「循環がある場合に50箇所の半径を有する円として画像の中心」とは、例えば、隠されたカテゴリであります

v2-7b1ad7c8de68c33e7443244dcde949ac_b.png

この分類器のうち学ぶゼロ重量近くの他の機能を行う権利、ちょうど画素は(例えば2)大型の重量に対応するこの右円を作るためのモデルは非常に単純です。したがって、より明白な丸い外観(0に近い画素値)、サブ識別器の出力が0に近いが、円(値が255に近い画素)分類器の出力は非常になる原因となる場合は、この場所が存在しない原因となります大規模な、見て、それはこの単純な分類タスクバーを学ぶことは簡単です(もちろん、このラウンドを学ぶ場所がない、また)ああ、本当にここに説明ラウンドに十分なコントラストを持たせるために(周りのピクセルの円を検討する必要がありますが、 )の発現西八尾小さな罰金の意味を理解し、問題これらの詳細を無視します。

まあ、何とか隠されたノードで、このサブ分類器の訓練だけでなく、同じトークンは、他のサブ分類器(隠されたノード)は、いくつかの奇妙な、シンプルな暗黙のカテゴリ、このシリーズを学ぶことができますカテゴリは、組み合わせることが完全に可能である。このようなものです

v2-52ccc188fe99feedb958ccd2823d7347_b.png

外観、(次のレベルの分類器に特徴的である)これらのカテゴリに基づいて、分類器の次の段階は、この画像を分類することは容易であるが、犬の友達ではない - 例えば上記画像として、それは、7つの隠されたノードについてです彼らは、分類決定の7行の有無について責任を負います。そして、分類器の次の段階は、単に重みのこれらの7つの特徴は、これらの機能のすべてが存在するときに、明らかにこれは犬のああであることを、大きくなっているようにする必要があります!だから、分類器は非常に自信を持って意思決定することができ、彼は言った後:「!この絵は犬である」ルック - それより直接的に単一のピクセルよりも科学の実践に結び付けられ、この犬は、より多くの自信を持って〜

これは、分類の基本的な原理を行うには、フィードフォワードニューラルネットワークとの接続の完全な深さの前にあります。

v2-4a808a73cb334096136891f9094d46c5_b.jpg

しかし!あなたは、問題を見つけることができるようになります!だから、明らかにそれは大きな制限があります!犬がやるような別の位置に一度?犬のDOの大きさの変化に一度?画像犬はそれの隅に丸まっ?

明らかに!この時点で割り当てが爆発して行く前に層に完全に接続されているフィードフォワードネットワークを隠さ!非常に多くの複雑な状況に対処するのに十分であり得る隠されたノードの多くは非常に隠されたカテゴリ/隠された機能を学ぶことがたくさん存在する必要があります!

そして、隠れた層ノードの大規模な数は急速に増加しているニューラルネットワークのパラメータの増加をもたらすでしょう!上記の例のように、隠されたノードのパラメータ10000 + 2を増加させるために増加することが、明らかにコストが非常に大きいです。だから、よりよい解決策はありますか?

明らかにああ!私たちの単純な分類器は、すべての隠されたノードの学習サークルのシンプル円、シンプルな直線、簡単な決定タスクを学習するので、一つのノードああにマージすることができます!その後、我々は表現するために、「ウィンドウ」の全体像よりもはるかに少ないを使用することができます。例えば、20×20のウィンドウを使用する(その唯一の400パラメータので、完全な100 * 100 = 10000パラメータ前の時間に接続している間)、およびこのウィンドウは見つけるために絵の周りに小さな円のために責任があります!この「窓」が「と呼ばれる畳み込みカーネル小さな丸いの画像を隅々を発見する」(明らかに、本質的に重量の隠れたノード接続の重みに対する入力の縮小版である)、私たちはターン畳み込みカーネルでは、このスライドをさせることができます画像の隅々にわたり、限り、どこかのように小さな円がある良いマークである、それが起動された小さな丸いを、見つけました。

以下のようなので、ジャスト常時接続の前に、より多くの機能を学ぶために、私たちは確かに複数のコンボリューションカーネルああを設定したい〜、それはこの酒に来るとき、各ワインダーコアは(簡単な分類タスクを担当し、我々推測しているだろう、これはちょうど完全に接続するときのように残っている、ここでは簡単な分類タスクは、新しい機能も)を作成、実際のサブ分類の次の層に古い機能を捨てることです。

明らかに、静止してこのような同一の畳み込みカーネルと同じ常時接続は、抽出された異なる特性の代わりに20×20の異なるパラメータ、小さな円で抽出20 * 20のためのいくつかの、三角形を抽出する責任一部でありますいくつかの抽出など-複数のグループの同じ線形コンボリューションカーネルサイズは、それが20の* 20と呼ばれるフィルタ(フィルタ)は(即ち、フィルタのサイズは、学習コンボリューションを複数設けてもよいです)

私たちが行くために小さな丸いの分類から、20×20のブロックを必要とするので、それはそれゆえ、ブロックの50〜50 *からの大円を見つける必要があるかもしれませんので、当然のことながら、畳み込み層に、我々は複数のフィルタのサイズを設定することができます -もちろん、あなたは、各フィルタサイズの異なる特性を抽出するために畳み込みカーネルを複数設けられています。

のは、より複雑なケースを考えてみましょう!

私たちは、時間入力の多くはいないだけで、プレゼンテーション層であることを知っています!例えば、カラー画像は、赤、青、緑の三層を含むであろうが、同じ階調の前に一層のみが含まれていません。

v2-4adf1597202c1a014a779db27d7627af_b.jpg

時には、カラー画像の円は層のみに青色で表示されますが、我々の畳み込みカーネルは層の円内のみのスライドを抽出するための責任がある場合、それはであることができるので、明らかに、他の2つの層には表示されません。多くの情報が欠落している多くの位置、ときに入力されたデータは、(すなわち、異なる角度を表すデータが多い)層の数として表すことができる全ての層に畳み込みカーネルは、各位置/「畳み込み」にマッピングされています何を、と合計するアプローチを探して畳み込みカーネルのない機能はありません最後にこの位置に実像を決定するために、。複数の層は、複数の入力と本明細書で言及された入力チャネル(チャネルで)コンボリューション層、複数のフィルタのサイズは、コンボリューションフィルタサイズの複数の各々に設けることができるのみならず、その結果核だけでなく、同じコンボリューションカーネルアカウントに入力されたデータの複数のチャネルを取るたびにすることができます!

のは、より多くの、より複雑なケースを考えてみましょう!

私たちは今、分類した場合のミッションが変更されました!それはより困難になります!今、私たちは直接に行われていない画像を識別したいキャッツ&ドッグスを

v2-00d0d6957ce22387f0194500527b6c5f_b.jpg

この場合は!私たちは、ああ、多くの、多くの分類器を持っています!私たちは、バンドエイドを識別するために、パックの先頭を識別するために、犬が識別されるように、猫を識別し、そのためには、どのように多くのサブ分類タスクを行うにはしたいですか?コンボリューションは、直接の層に組み込むことができないのですか?

もちろんありません!複数の入力チャネルので、もちろん、複数設けることができる出力チャネル(チャネルアウト)ああ!サブ分類タスクのかわりに1つの出力チャネル〜(もちろん、それぞれの子は、その分類フィルタのタスクとコンボリューションカーネルの束を持っています)。(もちろん、これらのサブ分類タスクは不明で、人間、彼らが知っているニューラルネットワークです)

この時点では、畳み込みの定義に関する完全な層がそれを完了します。私たちは、すべてのチャネル内の各場所での服用するように、コンボリューションカーネルを総括してみましょう;および下部フィルタサイズが異なる特徴を抽出するために使用される複数のコンボリューションカーネルを設定することができ、その後、あなたはの異なるサイズの数を設定することができます特徴抽出の粒子サイズを制御するためのフィルタと、出力チャネルを複数設けてもよいが、チャネルアウト分類複数のタスクを表します。そして、以前のように完全に接続されているフィードフォワードネットワークと、マッピングは完全な畳み込みカーネルである(すなわち、線形写像の終わりは)ああ、失われた活性化機能を覚えておいてください

したがって、画像に、畳み込みフィルタ層は、サイズの複数に分割され、各フィルタのサイズは、対応するチャネルにおける*幅*高さ*は畳み込みの幅と高さであることを特徴とする請求テンソル4Dのチャネルアウトパラメータ幅と高さの窓の友人の〜核畳み込みカーネルなどの二次元畳み込み窓も次元の畳み込み窓共感2D、3Dと呼ばれるには、テンソル5Dはとにかくある畳み込みパラメータです。

問題に対処する必要がない、それについて考えてみようか?

v2-4a808a73cb334096136891f9094d46c5_b.jpg

私達はちょうど議論したオブジェクト上の1箇所でワインダーコア業務のためだけにあります!出力はどのように選択するので、明らかに全体の入力データに対する畳み込みカーネルのスライドの後に、それはそんなに、多様で大量の出力を生成しますか?

想像してみて、実際には、我々は猫のうちを探している、その後、関係なく、猫の場所の画像、または右下隅の左上隅にある、まだ実際には、我々は、このイメージは猫が含まれていることを言って、画面全体をカバー!我々は唯一のすべての場所最強点出力で生産畳み込みカーネルを決定し、どのように十分に強い友人する必要があるので、我々は、その場所、最後にこの絵はそのようなものは存在しないだけで心配に興味を持っていませんほとんどの時間〜わずかこの操作が呼び出されるように放棄-ポイントの別の位置に直接出力最大(MAX-プール)プールされましたほとんどの場合の最大のプールがプールの中で最も効果的な方法である理由です。

もちろん、すべての地点の畳み込みカーネルを扱う、道の最大値を取ることに加えて、確かにいくつかのシーンは、他のより合理的な方法を必要とするがあります。これらの方法は、と呼ばれているプールされました

(MAX-Nプール)最初のn個のプールされた最大値をとり、実施例物をプール名前から推測することができ、同様に、平均(平均プーリング)とがプールされる最大プールに加えて、ではない1つの長ったらしいです当然の〜は、すべての場所のポイントのために、その後、機能またはグローバルのカテゴリを抽出することと等価であるグローバルプールのプールと呼ばれます。我々は(すなわち、ウィンドウ/コアをプール)プールの動作範囲を定義する場合、それは地元の機能をプールローカライズされて〜/カテゴリを得ています。

そうそう、ここでそれを説明する必要がある、プールが活性化関数が層とみなすことができるのであれば、モデルの非線形必ず保証活性化機能との畳み込みによる当然の畳み込み層(の裏でやっていることは明らかです次いで、層をプール)活性層の背後にあります。

まあ〜畳み込みニューラルネットワーク終え、畳み込み - アクティベーション - プーリングは、それは簡単です。もちろん、として、これはまだ前と同じである(すなわち出力のプールは私たちの最終的な分類タスクを取ることはありません)の結果がまだプーリングは言葉のカテゴリとして暗示されている場合は、前にも言った、次の層は、機能として使用することができます使用します。アクティベーション - - プーリング、ある、本当の意味でのニューラルネットワークの深さの形成当然の層の背後にあるプールだから彼らは、畳み込みの新ラウンドを取ることができます。

公開された33元の記事 ウォンの賞賛0 ビュー3291

おすすめ

転載: blog.csdn.net/xixiaoyaoww/article/details/104553510