AIの最大の成果の1つである畳み込みニューラルネットワークの限界を理解する

著者|ベンディクソン

翻訳者|シャンパン超新星

ヘッド図| CSDNビジョン中国からダウンロード

出品 | CSDN(ID:CSDNnews)

長い沈黙の後、人工知能は活発な開発の新しい時代に入ります。これは主に近年のディープラーニングと人工ニューラルネットワークの急速な発展によるものです。より正確には、ディープラーニングへの新たな関心は、主畳み込みニューラルネットワーク(CNN)の成功によるもので、ビジュアルデータの処理に特に優れているニューラルネットワーク構造です。

しかし、畳み込みニューラルネットワークに根本的な欠陥があると誰かが言った場合、どう思いますか?これは、「深い学習創始者」と「ニューラルネットワークの父、」トップレベルの人工知能の2020年年次総会の教授ジェフリー・ヒントンとして知られており、 - AAAI会議基調講演が提示され、AAAI(注釈:AAAIは、米国と呼ばれます人工知能協会)会議は、毎年開催される主要な人工知能会議の1つです。

ヒントンは、ヤンルクン、ヨシュアベンジオとともにこの会議に参加しました。ヒントンは、畳み込みニューラルネットワーク(CNN)とカプセルネットワークの限界について話し、これが人工知能の分野における彼の次の画期的な方向性であることを示唆しました。

彼のすべてのスピーチと同様に、ヒントンは多くの技術的な詳細を掘り下げています。そのため、畳み込みニューラルネットワークは、人間の視覚システムと比較してますます非効率になり、異なっています。この記事では、彼が会議で述べた主なポイントのいくつかについて詳しく説明します。しかし、これらのポイントに触れる前に、人工知能に関するいくつかの基本的な知識と、畳み込みニューラルネットワーク(CNN)が人工知能コミュニティにとって非常に重要である背景と理由を理解しましょう。

コンピュータービジョンソリューション

人工知能の初期の頃、科学者は人間のように世界を「見る」ことができるコンピュータを作成しようとしました。これらの取り組みにより、コンピュータービジョンというまったく新しい研究分野が生まれました

コンピュータビジョンの初期の研究には、シンボリック人工知能の使用が含まれており、各ルールは人間のプログラマーが指定する必要があります。しかし問題は、人間の視覚装置のすべての機能が明確なコンピュータプログラムルールで分解できるわけではないということです。したがって、この方法の使用率と成功率は非常に限られています。

別の異なる方法は機械学習です。シンボリック人工知能とは対照的に、機械学習アルゴリズムには一般的な構造が与えられており、トレーニング例を調べることで独自の行動能力を開発します。ただし、ほとんどの初期の機械学習アルゴリズムでは、画像関連の特徴を検出するためのコンポーネントを設計するために、依然として多くの手作業が必要です。

       

たたみ込みニューラルネットワーク(CNN)は、上記の2つの方法とは異なり、独自の機能検出メカニズムを開発するエンドツーエンドの人工知能モデルです。よく訓練されたマルチレベル畳み込みニューラルネットワークは、単純なコーナーから人間の顔、椅子、車、犬などの複雑なオブジェクトまで、レイヤー化された方法で機能を自動的に認識します。

畳み込みニューラルネットワーク(CNN)は、1980年代にトロント大学のヒントン研究室で博士研究員を務めていたLeCunによって初めて導入されました。ただし、畳み込みニューラルネットワークでの計算とデータに対する大きな需要のために、それらは保留され、その当時の採用は非常に制限されていました。その後、30年の開発の後、コンピューティングハードウェアとデータストレージテクノロジーの驚異的な進歩の助けを借りて、畳み込みニューラルネットワークはその潜在能力を最大限に発揮し始めました。

今日、大規模なコンピューティングクラスタ、専用ハードウェア、および大量のデータのおかげで、畳み込みニューラルネットワークは、画像分類とオブジェクト認識で広く有益に使用されています。

畳み込みニューラルネットワークの各層は、入力画像から特定の特徴を抽出します。

畳み込みニューラルネットワーク(CNN)と人間の視覚の違い

AAAIカンファレンスでのスピーチで、ヒントンは次のように指摘しました。「畳み込みニューラルネットワーク(CNN)はエンドツーエンドの学習をフルに活用しています。ある場所で機能が優れている場合、他の場所でも機能が優れていることがわかります。彼らは大きな成功を収めました。これにより、証拠を組み合わせてさまざまな場所で一般化することができますが、人間の認識とは大きく異なります。」

コンピュータビジョンの主要な課題の1つは、現実世界のデータの違いに対処することです。私たちの視覚システムは、さまざまな角度、さまざまな背景、さまざまな照明条件からオブジェクトを認識できます。オブジェクトが他のオブジェクトによって部分的に隠されているか、奇妙な方法で色付けされている場合、視覚システムは手掛かりやその他の知識を使用して、不足している情報とビューの理由を入力します。

同じオブジェクト認識機能を複製できる人工知能を作成することは非常に難しいことがわかりました。

ヒントン氏は、「畳み込みニューラルネットワーク(CNN)は、オブジェクトの変換の問題を解決するように設計されている」と語った。つまり、よく訓練された畳み込みニューラルネットワークは、画像内の位置に関係なくオブジェクトを認識できます。ただし、回転やスケーリングなどの他の効果はうまく処理できません。

ヒントン氏によると、この問題を解決する1つの方法は、4Dまたは6Dマップを使用して人工知能をトレーニングし、オブジェクト検出を実行することです。彼はまた付け加えた:「しかしこれは実際に禁止されている。」

現在、私たちの最善の解決策は、多数の画像を収集し、各オブジェクトを異なる場所に表示することです。次に、この巨大なデータセットで畳み込みニューラルネットワークをトレーニングし、一般化するのに十分なオブジェクトの例を確認して、現実世界で信頼できる精度でオブジェクトを検出できることを期待しています。ImageNetなどのデータセットには、この目標を達成するために設計された1,400万を超える注釈付き画像が含まれています。

ヒントン氏は次のように述べています。「これはあまり効果的ではありません。畳み込みニューラルネットワークを簡単に新しい視点に拡張できることを願っています。何かを認識できるようになり、10倍ズームして60度回転すると、これは基本的にコンピュータグラフィックスがこのようなものであることはわかっており、畳み込みニューラルネットワークがこのようになることを期待しています。」

実際、ImageNetには欠陥があることが証明されており、現在、コンピュータビジョンシステムを評価するための推奨ベンチマークとなっています。膨大なデータセットにもかかわらず、オブジェクトのすべての可能な角度と位置をキャプチャできるわけではありません。これは主に、理想的な照明条件下で既知の角度で撮影された画像で構成されます。

これは、知識を簡単に一般化できるため、人間の視覚システムには受け入れられます。実際、オブジェクトを複数の角度から観察すると、通常、オブジェクトが新しい位置と異なる視覚条件でどのように見えるかを想像できます。

しかし、畳み込みニューラルネットワーク(CNN)は、対処する必要があるケースを説明するために詳細な例が必要であり、人間の思考の創造性を備えていません。ディープラーニングの開発者は通常、ニューラルネットワークをトレーニングする前に画像を反転または少し回転させる「データ拡張」と呼ばれるプロセスを適用することにより、この問題を解決しようとします。実際、たたみ込みニューラルネットワークは各画像の複数のコピーでトレーニングされ、各コピーはわずかに異なります。これは、人工知能が同じオブジェクトの変更に一般化するのに役立ちます。ある程度までは、データ拡張により人工知能モデルがより堅牢になります。

ただし、データの増大では、畳み込みニューラルネットワークや他のニューラルネットワークでは処理できない極端な状況(上向きの椅子やベッドに置かれたしわくちゃのTシャツなど)をカバーできません。これらはすべて、実際のピクセル操作が実現できない状況です。

ImageNetと現実:ImageNet(左の列)では、オブジェクトは理想的な背景と照明条件下できれいに配置されます。現実の世界ははるかに無秩序です(ソース:objectnet.dev)

一部の人々は、現実世界の無秩序な現実をよりよく表すコンピュータービジョンベンチマークとトレーニングデータセットを作成することにより、この一般化問題を解決しました。ただし、現在の人工知能システムの結果を改善することはできますが、クロスビュー一般化の根本的な問題は解決されません。常に新しい角度、新しい照明条件、新しい色とポーズがあり、これらの新しいデータセットにはこれらの状況すべてを含めることはできません。これらの新しい状況は、最大かつ最も先進的な人工知能システムをさらに混乱させるでしょう。

違いは危険な場合があります

上記の観点から、畳み込みニューラルネットワーク(CNN)は、人間と非常に異なる方法でオブジェクトを明確に認識します。ただし、これらの違いは弱い一般化に制限があるだけでなく、オブジェクトを学習するためのより多くの例も必要です。畳み込みニューラルネットワークによって生成されたオブジェクトの内部表現も、人間の脳の生物​​学的ニューラルネットワークとは大きく異なります。

これはどのように現れますか?「写真を撮ってノイズを少し加えると、たたみ込みニューラルネットワークはそれをまったく異なるものとして認識し、それらの違いをほとんど見ることができません。これは本当に奇妙に思えます。これを証拠として考えてみてください。畳み込みニューラルネットワークは、実際には画像とはまったく異なる情報を使用して画像を認識しています。「ヒントンは、AAAIカンファレンスでの基調講演でこう語っています。

これらのわずかに変更された画像は「敵対的サンプル」と呼ばれ、人工知能の分野で注目を集めている研究トピックです。

             

敵対的なサンプルにより、ニューラルネットワークが人間の目に影響を与えずに画像を誤って分類する場合があります。

ヒントンは言った:「これが間違っているということではありません。彼らはまったく異なる作業方法を使用しており、彼らの完全に異なるアプローチは、一般化の方法にいくつかの違いがあります。」

しかし、多くの例は、敵対的な干渉が非常に危険な場合があることを示しています。画像分類子がパンダをテナガザルとして誤ってマークした場合、これはすべてかわいいし面白いです。ただし、自動運転車のコンピュータービジョンシステムに一時停止の標識がなく、悪意のあるハッカーが顔認識セキュリティシステムをバイパスしている場合、またはGoogleフォトが人間をゴリラとしてマークしている場合は、大きな問題に直面します。

検出乱れ対立と敵対乱れが抵抗することができます作成し、強力な人工知能システムを、多くの研究が行われています。しかし、敵対的なサンプルは、私たちのビジョンシステムが数世代の進化の後で私たちの周りの世界を処理できるようになり、私たちのビジョンシステムに適応するために私たちの世界を作り出したことを思い出させます。したがって、コンピュータビジョンシステムが人間の視覚とは根本的に異なる方法で動作する場合、LIDARやレーダーマッピングなどの補完的なテクノロジでサポートされていない限り、予測や信頼性は失われます。

座標系と部分全体の関係が重要です

AAAI会議の基調講演でGeoffrey Hintonが指摘した別の問題は、畳み込みニューラルネットワークがオブジェクトとその部分の観点から画像を理解できないことです。それらは画像を異なるパターンで配置されたピクセルのスポットとして認識します。また、エンティティとその関係の明示的な内部表現もありません。

「畳み込みニューラルネットワークを各ピクセル位置の中心と考えると、そのピクセル位置で何が起こっているかを、ますます多くのコンテキストに応じて説明するようになります。結局、非常に豊かになります。説明。これにより、画像内に存在するオブジェクトがわかります。しかし、それらは画像を明示的に解析しませんでした。

オブジェクトの構成を理解することで、世界を理解し、この独特のティーポットなど、今まで見たことのないものを理解することができます。

             

オブジェクトを複数の部分に分解すると、その性質を理解するのに役立ちます。これはトイレですか、ティーポットですか。(ソース:スマッシングリスト)

畳み込みニューラルネットワークには、人間の視覚の基本コンポーネントである座標系がまだありません。基本的に、オブジェクトを見ると、その方向に関するメンタルモデルが作成されます。これは、オブジェクトのさまざまな特性を分析するのに役立ちます。たとえば、下の画像では、右側の顔を考えてみましょう。ひっくり返すと、左の顔が見えます。しかし、実際には、左側の顔を見るために画像を物理的に反転させる必要はありません。精神的に座標系を調整するだけで、画像の向きに関係なく、2つの顔を見ることができます。

ヒントンは次のように指摘しました。「適用された座標系によれば、完全に異なる内部認識があります。畳み込みニューラルネットワークはこれを実際に説明することはできません。入力を与えると、認識があり、認識は強制されたものに依存しません。座標系。これは、敵対的なサンプルと、畳み込みニューラルネットワークが人間とはまったく異なる方法で認識されるという事実に関連していると思います。

コンピュータグラフィックスから学ぶ

ヒントンはAAAI会議でのスピーチで、コンピュータビジョンを解決する非常に便利な方法は逆グラフを作成することであると指摘しました。3次元コンピュータグラフィックスモデルは、オブジェクトの階層で構成されています。各オブジェクトには、親オブジェクトを基準にした平行移動、回転、スケーリングを定義する変換行列があります。各階層の最上位オブジェクトの変換行列は、世界の原点に対する座標と方向を定義します。

たとえば、自動車の3Dモデルを考えてみます。基本オブジェクトには4×4の変換行列があります。これは、車の中心が座標(X = 10、Y = 10、Z = 0)と回転(X = 0、Y = 0、Z = 90)であることを示しています。車自体は、ホイール、シャーシ、ステアリングホイール、フロントガラス、ギアボックス、エンジンなど、多くのオブジェクトで構成されています。各オブジェクトには、親マトリックス(車の中心)を基準とした独自の変換マトリックスがあり、その位置と方向を定義します。たとえば、左前輪の中心は(X = -1.5、Y = 2、Z = -0.3)にあります。左前輪の世界座標は、その変換行列とその親行列を乗算することによって取得できます。

これらのオブジェクトの一部には、独自のサブセットがある場合があります。たとえば、ホイールはタイヤ、リム、ハブ、ナット、その他のコンポーネントで構成されています。これらの各サブアイテムには、独自の変換行列があります。

この座標系階層を使用すると、ポーズ、向き、視点に関係なく、オブジェクトを簡単に見つけて視覚化できます。オブジェクトをレンダリングする場合は、3Dオブジェクトの各三角形に、その変換行列とその親オブジェクトの変換行列を掛けます。次に、それを視点に合わせ(別の行列乗算)、ピクセルにラスタライズする前に画面座標に変換します。

「(コンピュータグラフィックスで働いている人に) 『別の角度から見せてもらえますか?トレーニングなので、その角度からは表示されません。「3Dモデルがあり、パーツと全体の関係、およびこれらの関係に基づいて空間構造をモデル化しているため、別の角度から表示されます視点にまったく依存しない」と語った。「3Dオブジェクトの画像を処理するときにこの美しい構造を使用しないのは、おかしいと思います。」

カプセルネットワーク(カプセルネットワーク)は、逆のコンピューターグラフィックスを作成しようとする、ヒントンのもう1つの野心的な新しいプロジェクトです。カプセルネットワークには独自の独立したものが必要ですが、その背後にある基本的な考え方は、画像を取得し、オブジェクトとパーツを抽出し、座標系を定義し、画像のモジュール構造を作成することです。

カプセルネットワークはまだ開発中であり、2017年の発売以来、何度も繰り返してきました。しかし、ヒントンと彼の同僚がそれらをうまく機能させることができれば、人間のビジョンを再現することに近づくでしょう。

この記事はCSDNの翻訳です。ソースを指定してください。

【終わり】

よりエキサイティングな推奨事項

マイクロソフトCEO Satir・Nadella:DOはない再作成ホイール、アップグレード技術と強い密度

GitHubスター10,000以上、ApacheのトッププロジェクトShardingSphereのオープンソースロード

HKUSTは鄭Guangtingの将来の尋問アカデミー、AIの最新のアプリケーションと実践を明らかにしました

大きなプロモーションの下でのインテリジェントなO&Mチャレンジ:アリは「ダブル11キャットナイト」にどのように対抗できますか?

イーサネットスクエア2.0カストディゲームとMPCを実装

☞9 つのMySQLインタビューの質問を非常に注意深く書きました。

あなたが注文するすべての「ウォッチング」、私はそれを真剣に受け止めます

リリース1979元の記事 ウォンの賞賛40000 + ビュー1839万+

おすすめ

転載: blog.csdn.net/csdnnews/article/details/105672151