コンピュータビジョンと学習の深さ

1.コンピュータビジョンと学習との関係の深さ

長い間、そのコンピュータは、目標のコンピュータ科学者のたゆまぬ追求であると言うことができる聞く見ることができ、目標は、彼らが世界を理解できるように、最も基本的なコンピュータは、コンピュータが人間のような目を持っていることができましょう、この世界で見ることができるようにすることです。

1.1人間の視神経のインスピレーション

1.1.1視覚的な動物実験

1958年、JohnHopkins大学でDavidHubelとトルステン・ヴィーゼルは、大脳皮質の神経細胞の瞳領域との対応を検討しました。彼らは猫の頭の頭蓋骨の上にあり、彼は、ニューロンの活性のレベルを測定し、穴の中に電極を挿入し、3mmの穴を開けました。その後、彼らは、様々な形状、被写体輝度の多様を示し、猫の目の前にあります。すべてのオブジェクトを表示する際に、対象物の位置や角度を変更することも配置されています。彼らは、このアプローチを通じて、猫の瞳は、異なるタイプおよび刺激の強さを感じさせますことを願っています。このテストを行うには理由が、目的は推測を証明することです。刺激間の異なる視覚大脳皮質ニューロンに位置し、瞳孔との対応関係の存在が苦しみました。刺激の特定の種類によって瞳たら、大脳皮質の神経細胞の一部がアクティブになります。多くの日は、唯一のいくつかの貧しい猫を犠牲にして、デビッド・ヒューベルとトルステンウィーゼルは「方向選択細胞(オリエンテーション選択的な細胞)」と呼ばれる神経細胞で見つかった、退屈な繰り返しテストを経験しました。瞳は、物体の前縁を発見し、このエッジは、特定の方向を指す場合、そのようなニューロンがアクティブになります。この発見は、神経系にさらに考えるように人々を刺激してきました。神経 - 中央 - 脳内作業プロセス、抽象化のおそらく絶えず反復、継続的なプロセス。

1.1.2視覚神経科学の景色

視神経とトルステンウィーゼル、正式に今までは、確立されて視覚的神経科学からの実験DavidHubel後、ビューのいくつかの広く受け入れられているポイントの視神経に、以下の通りであります:

(1)脳は、視覚情報が階層で処理し、下の脳領域は、顔、スポーツハウス、オブジェクトなどのより抽象的な高レベルの脳領域でエッジ、エッジまたは何か、取引を処理することができます。情報は、層転写プロセスによって層まで出て抽出されます。
(2)脳は、ライブ異なるドライのさまざまな情報を抽出するために、異なる脳領域を平行である視覚情報を処理し、オブジェクトが何であるかといくつかの取引は、これに対処するためのいくつかの責任は、オブジェクトが移動する方法です。
低レベルフィードバック突起が多い高次脳皮質ながら(3)脳領域間の広範な接触があります。
一般的によく規制のトップダウンおよびボトムアップ注目によって受信された情報の処理(4)。つまり、脳は、特定の機能、いくつかのスペースや、より高度な処理を選択することがあります。

さらなる研究は、特定のオブジェクトは、ビジョンの任意のフィールドに表示されたときに、脳の視覚的な神経細胞の一部が一定のアクティブ状態にあったことがわかりました。視神経の科学的な観点から説明は、皮質、小さなフィーチャ認識対象認識の微妙な進化から神経系への網膜から人間の視覚識別です。あなたは、このようなA「皮質」変換信号を持っている場合、コンピュータの場合、コンピュータは、人間の視覚にモデル化することになる現実のものとなっています。

難し1.2コンピュータビジョンと人工ニューラルネットワーク

多くの研究では、人間の視覚は秘密が徐々に開いて明らかにしていますが、コンピュータ上で使用されるこれらのアイデアや経験を書きたいたが、それほど単純ではありません。コンピュータは、それは光が同じでない場合でも、同じ画像を読み込むにつながるように機械化された識別、コンピュータ識別結果が変更に非常に可能性があります。コンピュータでは、二つの別々の物体の認識が簡単に、しかし、別の環境で同じ質問を認識することはより困難です。しかし、唯一のかなり完全なビジョンシステムと考えることが、後者の問題を解決しました。

コアコンピュータビジョンは、どのように同じオブジェクトの違いを無視して、同じオブジェクトに似て異なるオブジェクト間の内部区別を、強化することであるが、異なるオブジェクト間には大きな違いがあります。

1960年代の人工ニューラルネットワークの農産物の種子に、しかし、コンピュータのハードウェアリソースが限られた、理論は開発のみのシンプルなモデルに滞在することができ、完全に検証することはできません。

1980年代に理論的な基礎人工ニューラルネットワークのランドマーク「逆伝搬アルゴリズム」発明、非常に連鎖法則の解体複雑原は、それぞれの重みに従って、コンテキストの別のみ接続層でありますエラーの割り当て。

バックプロパゲーションアルゴリズム:

学習アルゴリズム多層ニューラルネットワークに適したBPアルゴリズム(即ち、バックプロパゲーションアルゴリズムが)、それは、勾配降下法に基づいています。BPネットワークの入出力関係は、本質的にマッピング関係である:n入力M BPニューラルネットワークの出力は、有限体のM次元のユークリッド空間にn次元ユークリッド空間から連続マッピング機能を達成されることマッピングは、非常に非線形です。これは、複合材料のいくつかの簡単なの非線形関数の情報処理能力に由来し、それが再現する能力の強力な機能を持っています。これは、BPアルゴリズムの基礎が適用されています。

さらなる研究では、2006年には、ジェフリー・ヒントンは深いニューラルネットワークを訓練して突破口を作りました。彼は、人工ニューラルネットワークを学ぶための優れた能力を持っているより多くの隠れた層のニューロンの使用を実証する最初のでした。その基本原理は、ニューラルネットワークモデルの初期化は、その後の調整を最適化するために、ニューロンのバックプロパゲーションを用いて、良好なネットワークの初期化で計算された教師データを使用することを保証するために、データの特定の分布を使用することです。

コンピュータビジョンの問題を解決するために、深い学習の1.3応用

「畳み込みニューラルネットワーク構造を持つディープ(CNN)」は、それが広くコンピュータビジョンで使用されています。これは、画像処理のさまざまなレベルを割り当てる、ステップ視覚モデル化生体分解アルゴリズムによってステップです。

コンボリューションとは何ですか?コンボリューションは2つの機能の間の関係であるし、新しい価値に来て、彼は連続空間の統合行われ、その後、離散空間の過程で加算されています。実際には、コンピュータビジョンの内部に、あなたは抽象プロセスとして畳み込みを置くことができ、統計情報には、小さな領域外に抽象的にです。

CNNは、コンピュータビジョンの特定、その基本原理とアルゴリズムに好ましい溶液、コンピュータビジョンで使用されると、より多くの利点を学習の深さとみなされます。

異なる目的のための伝統的なアルゴリズムが異なるアルゴリズムをカスタマイズする必要のある学習アルゴリズム(1)汎用性の高い深さ、。比較的、伝統的なCNNのような、より一般的に基づいて、深い学習アルゴリズムは、顔の上に、歩行者、一般の物体検出タスクは非常に良い結果を達成することができ、より高速なRCNNに基づいて開発されました。
学習の深さを得るための機能(機能)(2)移行する強力な能力を持っています。使用に学習のAタスクに機能の数を参照する機能の移行は、Bのタスクで非常に良い結果を得ることができます。
(3)技術開発、最適化、低メンテナンスコスト。深さの研究では、コンボリューション行列乗算主に計算して、この計算の最適化のために、すべての深い学習アルゴリズムは、パフォーマンスを向上させることができます。

コンピュータビジョンと学習2.基礎研究

コンピュータビジョンは、規律を「見る」ためにどのようにコンピュータは、以上の説明ではなく、バイオ目の標的同定のマシンを使用し、オブジェクトがニーズを処理し、これに基づいて必要な画像処理を行うことで、特殊なティーチです。

2.1構造図コンピュータビジョン

あなたは下に示すように、構造図にグループ化されたコンピュータビジョンの問題を解決するために、深い学習を使用することができます。
コンピュータビジョンの構成図
コンピュータの視覚的な学習のために、良いトレーニングプラットフォームの選択が最も重要です。学習者の大多数のため、使用して便利なプラットフォームの容易なので、多くの場合、学習の成否を決定します。モデルの使用が続きます。非常に重要な要素に加えて、速度やサイクルも速く訓練を作る方法を検討する必要があり、どのように使用するの速いモデルが認識、非常に重要な問題であるコンピュータビジョンオブジェクト。

学習に2.2コンピュータビジョンのアプローチ

「コンピュータはそれが記述する内容を確認するので、コンピュータは、カメラに接続されている。」これは決定は規律の対象として行われたときダウンコンピュータビジョンです。犬と猫が上の写真を思い付く、人は関係なく、犬や猫写真画像上と人間の種類の常に正確絵は猫や犬で区別することができ、識別することができます。そして、学習するニューラルネットワークモデルに送信された画像と、このラベルをつけ、学習へのこのアプローチは、「教師付き学習」と呼ばれています。
コンピュータビジョンの分野での学習指導、けれども、深い学習が大きな成果を達成したが、「半教師あり学習」と「教師なし学習」を区別するために、生物学的および視覚的な学習に関して、より緊急かつより重要なコンテンツがありますビデオ内のオブジェクトの動きとして、解決され、特定の法律の動作が、絵に、動物は、特定の構造を有し、これらの画像や動画の使用はAに、特定の構造教師なしの問題を置くことができます問題の監督は、その後、学ぶために、教師付き学習方法を使用することがあります。これは、学習へのコンピュータビジョンのアプローチです。

背中に書かれた3。

私は後者が記事はシリーズの最初の記事で、記事を更新していきます、ノートに記録されている学習プロセスを学習の場に入りました。深い学習とコンピュータビジョンの本当の王Xiaohuaバージョン:参照して上記のすべて。近い将来、コンピュータビジョンは、より多くの問題に対処しますおそらく、我々はさまざまな問題を探求一緒に同じ気持ちを持った学習者を歓迎します。不適切な場合は、この記事では、読者が批判することができることを望み、私はそれを修正します。読者にこの記事が参考にした場合、私は読者が波に従うことができます願っています。

リリース3元の記事 ウォンの賞賛4 ビュー2784

おすすめ

転載: blog.csdn.net/weixin_43071717/article/details/104244291