ディープラーニングターゲット検出シリーズのYOLO9000

1.ゴシップ

            正式に勉強する前に、私は自分自身を手放すのが好きです。テクノロジーはおしゃべり用だと思います。居酒屋を見つけて、素晴らしい神々を見つけましょう。音楽を聴いて、一緒に話しましょう。ですから、遊ぶのと同じように、自分の言葉を口頭で話せるようになることを特に望んでいます。古代の物語の語り手と同じように、シャオ・ユアンシャンとムロン・ボーはお互いに微笑み、ワン・トゥは横暴になり、血と血、そして深い敵意をすべてほこりにさらしました。これは私が憧れている表現方法ですが、それでもそのレベルに到達できないので、最善を尽くすしかありません。

2.YOLOV2

      1.10の変換ポイント

            yolov1はターゲット検出の速度を向上させますが、MAPの観点からは低下します。ですから、鉄の戦いの神々と流れる水のモデルについて言えば、彼らは自然にこの問題を解決するためにさまざまな方法を試みます。私の意見では、それはプログラマーがバグを書いているようなものであり、それは常に最終的に修正する必要があります。したがって、yolov2は2つの部分に分けることができます。最初の部分はMAPを改善するための取り組みであり、2番目の部分はもちろん、検出速度を確保することを前提とした元のモデルの最適化です。

           以下の10点は、V2の偉大な神々の努力です。これはどういう意味ですか、速度の増加ですか?精度が向上しましたか?モデルの一般化能力を向上させますか?はい、しかしもっと重要なことは、それは仕事量と年末の決済の現れだと思います。この論文を読むと、これらの偉大な神々は聖人のようであると感じることがあります。彼らのすべての努力は、社会に利益をもたらし、AIビジョンのさらなる発展を促進することです。実際、彼らは人間でもあり、さまざまな側面からの制限もあり、彼ら自身の利己心、いくつかの小さな意図、そして人間として生まれたさまざまな無力さも持っています。ですから、この論文を読むことは、あなたが素晴らしいと言いながら、私の心の中で私があなたを超えなければならないと考えながら、偉大な神々と話しているのです。

           

           説明しましょう。モデルによって予測された結果があまり満足のいくものでない場合は、一般に、データ、モデル、トレーニング戦略の3つの側面から理由を探します。それでも機能しない場合は、慎重に探してください。

           1.データ    

                        1)バッチノルム:データがコンボリューションによって処理された後、その平均と分布が変化します。この方法を使用して、中間層のデータを元のデータと同じ分布に戻します。率直に言って、データがあまりにも深刻に実行されないようにすることです。

           2.モデル       

                         1)畳み込み 二つの層の完全な接続を取り外して交換畳み込みをyolov1た後、完全な畳み込みネットワークを使用。フルコンボリューションの利点は、入力を任意にすることができることです。

                         2)新しいネットワークは軽量のdarknet19ネットワークを  設計しました。これにより、計算とパラメーターの量が大幅に削減され、精度が0.4%向上しました。

                         3)アンカーボックス は、より高速というアンカーの概念を利用して、事前ボックスの概念を追加し、各セルは5つのボックスを予測します。

                         4)パススルー 連結は、最終検出のために、最後のプーリングレイヤーと最後のフィーチャー13 * 13の前にフィーチャーマップ26 * 26をステッチします。浅い情報はより多くの形状情報を運び、小さなオブジェクトを検出するのにより適しているため、ここではFPNの考え方が少しあります。深い特徴はより多くの意味情報を運び、大きなオブジェクトを検出するのに適しています。融合後、モデルは小さなオブジェクトの予測能力を向上させることができます。

                                         

            3.トレーニング戦略

                         1)解像度分類器:高解像度分類器。10ラウンドの事前トレーニングのためにimagenetの224 * 224画像を448 * 448に変換します。yolov1と比較して、224で直接トレーニングしてから、448で特徴を抽出します。このようにして、モデルの分類能力が向上します。

                         2)事前ディメンション と、手動で定義された事前ボックスのサイズと比率の高速化の違いは、yolov2がトレーニング前にk-meansを使用してデータをクラスター化し、1-IOUを使用してボックスとボックス間の距離を計算することです。後者のクラスターセンターボックスの幅と高さは、アプリオリボックスの幅と高さと見なされます。

                         3)位置予測と 高速違いは、yolov2予測ボックスのxとyがセルの左上隅からオフセットされていることです。ボックスの中心点がセルを超えていることを予測するために、シグモイド正規化が実行されます。より速い予測方法は、特に最初の数ラウンドでモデルの不安定性につながるため、中心点が予測ボックスの中心点の位置を超えることがよくあります。

                              

                           

                            4)複数のサイズのマルチスケール トレーニングの場合、入力画像のサイズは10ラウンドごとにランダムに変更され(これは完全な畳み込みの威厳です)、サイズの範囲は320,352、...、608で、すべて32です。の倍数。バックボーンネットワークの畳み込み層の入力画像と出力のサイズが32倍ダウンサンプリングされているためです。このようにトレーニングされたモデルは、より強力な一般化能力を備えており、異なるサイズの画像を比較する予測がより正確になります。

                            5)高解像度検出器の  最後のポイントは、副産物のようなものであり、高解像度の画像をより正確に予測できます。トレーニングは高解像度で実行されるため、高解像度の予測はより正確です。また、高解像度の画像の場合、独自の説明力が非常に強く、意味情報が豊富です。

 

3.yolo9000

             なんでこんなに大胆な名前なの?ヨロは長い間進化してきたような気がします。ここでの9000は、yoloが9000のカテゴリを正確に予測できることを意味します。どうやってするの?分類に使用されるimagenetデータセットには合計14197122の画像があり、21841のカテゴリに分類されます。検出に使用されるデータセットはワークロードが大きいため、データセット内の画像の数と分類の数は少なくなります。たとえば、80のカテゴリを持つcocoデータセットには約33万枚の写真があります。

             本質的に、ターゲットフレームの予測タスクと分類タスクは2つの異なるタスクであるため、分類データセットを分類に使用し、検出データセットを検出+分類に使用することができます(検出データセットにはカテゴリ情報が必要であるため)の)。このようにして、モデルはより多くの種類のオブジェクト画像をフレーム化してマークすることができます。

            理想はいっぱいです、それをどのように実現するのですか?損失の逆伝播を使用して制御しますが、これは高すぎます。実際、分類されたデータセットが入力されると、分類された損失のみが逆調整に参加します。

           しかし、もう1つの問題は、2つのデータセットの一部のカテゴリ情報が互いに独立していないことです。たとえば、猫とガーフィールド、ガーフィールドも一種の猫です。ディープラーニングはデータが互いに独立していることを前提としているため、これは大きな問題です。すると、偉大な神が木を見つけました。ほら、すばらしいことは木に関係しています。ワードツリーは、次の図に示すように、すべてのカテゴリ情報がツリー構造を使用して接続されており、各子ノードからルートノードへのパスは一意です。この独自性により、猫とガーフィールドの重複によるトラブルが解消されます。ゲームを続行できます。予測すると、各ノードに対応する確率出力は、パス上のすべてのノードの出力の積に等しくなります。パーフェクトだ!

                          

4.パフォーマンス

       1.VOC2007

                           

       2.VOC2012

3.coco

 v1と比較して、yolov2バージョンのパフォーマンスと精度は確かに向上していることがわかりますが、SSDと比較するとパフォーマンスにはまだいくつかのギャップがあります。しかし、彼の速度は確かに非常に速いです。ですから、敗北を認めることのないヨロは大変な努力をし、フォローアップで一つずつ提供していきます。

4.まとめ

        この記事では、v1バージョンに対してyolov2によって行われた改善点を紹介しました。主に次の3つの側面が含まれます。データの側面:BN、モデルの側面:darkenet19、フルコンボリューション、パススルー、アンカーボックス、トレーニング戦略の側面:高解像度の分類、高解像度の検出、クラスタリング、マルチサイズトレーニング、損失調整。 yolo9000の動作原理が導入されました。分類データセットは、分類損失の逆調整のみを実行します。カテゴリ情報の非独立性の問題を解決するために、ワードツリーを導入しました。最終的なモデルでは、9000個のオブジェクトを正常に検出できます。最後に、yoloV2のパフォーマンスと精度を要約します。精度は大幅に向上していますが、ssdと比較してcocoデータセットにはまだギャップがあります。ヨロは決してあきらめません!またね。

5.デザートの瞬間

           私は信じる能力と呼ばれる一種の能力をとても大切にしています。人々は不可能と思われることを信じることができると思います、そしてこの種の信仰は十分に素晴らしいです。子供たちはスパイダーマンになりたいです、私たちは彼がとてもかわいいと思います!しかし、あなたが成長したとき、あなたはまだそれを信じますか?彼のIQに問題はありますか?必ずしもそうとは限りません。私たちは世界についてどれだけ知っていますか?哀れな。この小さな知識はどれくらい正確ですか?哀れな。真実を発見する最初のステップは、それを信じることです。ですから、私たちは地球上で私たち全員が不完全な人間だといつも信じていました。私たちはもともと完璧でした。顔の価値、性格、無限の明るさ、そして私が想像できない他の多くの側面。なぜ来たのか正確にはわかりませんが、いつか戻ってくると深く信じています。元のスタイルに戻り、完璧なスタイル。しかし、すべての人が戻ることができるわけではないかもしれません。世界はカジノかもしれませんし、ギャンブルに負けた場合、戻ることができないかもしれません。それで、賭けは何ですか?おそらく、私たちが不完全になったとき、私たちはいくつかの悪いことをするだろうということは間違いありません。

  

         

【ヘビーウェイト】ジャスティンビーバーの最新エレクトロニックシングル「コールドウォーター」発売〜ずっと泣き声が聞こえる@油兔不二分視組

 

       

 

 

 

 

 

 

おすすめ

転載: blog.csdn.net/gaobing1993/article/details/108382560