YOLOv3:アン漸進的な改善 - 1 - ペーパー学習

概要
私たちは、私たちはより良いそれを作るために設計にいくつかの小さな変更を加えた!YOLOにいくつかの更新を提供します。我々はまた、偉大な新しいネットワークを訓練しました。それ 少し大きいが、より正確な最後の時間。しかし、まだ非常に高速で 、心配しないでください。320×320サイズの画像では、YOLOv3結果は3倍彼より正確かつSSD、しかしとして、28.2マップであり、22ミリ秒を実行します。私たちは、古い0.5 IOU MAP検出指標の標準として、その結果YOLOv3はまだかなり良いですとき。そして57.5 AP RetinaNet 50 AP 57.9 X-タイタン上で実施される比較(198ミリ秒)、 50 (51 MSで)、類似の特性が、3.8倍高速。いつものように、すべてのコード可視https://pjreddie.com/yolo/。 
 
1.はじめに 

時にはあなたは、あなたが知っている?私は今年多くの研究を行っていない携帯電話を戦うために年にそれを与えます。私はTwitterで多くの時間を費やしました。しばらくガンズのために再生します。昨年、[12] [1]も残っている力であり、私YOLOは、いくつかの改善を行いました。しかし、正直に言うと、それを改善するために、超面白い何も、単にいくつかの小さな変更はありません。私はまた、いくつかの研究を行うために他人を助けます。

実際には、これは我々が今日ここに来た理由です。私たちは、[4]期限を撮影する準備を持って、我々はいくつかのを参照する必要があるのYOLOランダムアップデートが、我々はソースを持っていません。だから今の技術的な報告書を作成すること!
素晴らしいところは、彼らは私たちがここにいる理由をすべて知っている、技術レポートが記述する必要がないことです。そのため、紙の残りの部分は、このプレゼンテーション指定した方向の終わりになるでしょう。まず、私たちはあなたにそれがどのようにYOLOv3をお伝えしたいと思います。その後、我々は我々が行う方法を教えてくれます。私たちは、私たちの一部は、試みたが、やることができなかったことを教えてくれます。最後に、我々は何それをすべての手段を検討します。

 
2.ディール
だから、YOLOv3はこれです:私たちのアイデアのほとんどは、他人から学習されます。我々はまた、他の分類器よりはましだ、新しい分類子ネットワークを訓練します。あなたはすべてを理解することができるように、我々は、ゼロからシステム全体を紹介します。
 
2.1。バウンディングボックス予測 

YOLO9000によると、我々のシステムの用途は、バウンディングボックスを予測するためのアンカーボックス[15]などのディメンションをクラスタリングします。各境界ボックスのネットワークの予測は、4つの座標、すなわち、T X、T Y、T 、W、T H対応するセル(左上角の座標)、画像全体(Cの左上隅の座標からオフセットされている場合はX、C Y)、幅及び先験的Pの高さを有する境界ボックスW、P Hの予測に対応します:

 

訓練では、我々は、二乗誤差や損失を使用しています。trueの場合は予測されたT ^ *、我々の勾配真値(の値座標逆に上記式に従って算出実ブロックから値を予測値米国Tを減算することにより) - T T *:*真の値は容易に算出する上記式で逆転させることができます。
YOLOv3は、各目的のスコアのバウンディングボックスを予測するロジスティック回帰を使用しました。本当のボックスと先験的演繹のバウンディングボックスが他のバウンディングボックスよりも多くの重複オブジェクトがあれば、スコアは1でなければなりません。バウンディングボックスは、先験的最善ではありませんが、実際のターゲットブロックに重複することは、特定のしきい値を超え、我々は場合予測を無視するように[17]作ったとして、。私たちは、0.5のしきい値を使用しています。そして、[17]異なる、私たちのシステム各実フレームオブジェクトはバウンディングボックスが割り当てられます実際のボックスオブジェクトに割り当てられた先験的バウンディングボックスは、それが座標またはクラス予測の損失が発生しません場合は、唯一の信頼の喪失につながります。

 
2.2。クラス予測 

クラスのバウンディングボックスを予測するために使用される各ボックスは、マルチラベル分類の使用が含まれていてもよいです。我々は良いパフォーマンスを得るために、逆に、我々は唯一の独立したロジック分類器を使用する必要はないことがわかったので、私たちは、ソフトマックスを使用していませんでした。トレーニング中に、我々は相互エントロピー損失(バイナリクロスエントロピー損失)と予測されたクラスを使用します
この式は、私たちは、このようなオープン画像データセット[7]など、より複雑な領域に移動するのに役立ちます。このデータセットでは、多くの重複ラベル(つまり、女性と男性)があります。ソフトマックスを使用して一般的に仮定、フレーム毎に、すなわち、正確に一つのクラスではなく、ケースを課します。マルチラベル法は、モデルデータへのより良いかもしれません。

 

2.3。スケールアクロス予測 

YOLOv3は、図の特性三つの異なるスケールを予測しました。我々のシステムの抽出物は、このスケールからピラミッドネットワーク(FPN)[8]の概念に類似した特徴を備えて(すなわち、3種類のサイズの出力特性グラフで、より豊かな受容野)。

私たちの基本的な特徴抽出の初めから、我々はいくつかの畳み込み層を追加しました。最後に、三次元畳み込み層は、バウンディングボックス、オブジェクトおよびクラス予測をコードテンソルでした。我々が行っCOCO [10]を用いた実験では、我々は、各サイズのマップ上の各位置のための3つの予測フレームの特徴を有する、図出力テンソル各機能は×従ってN×N [3 *(4 +オフセットは、ターゲット予測と予測80クラスの1 + 80)]、4バウンディングボックス。(これは、グラフの第1の特徴のサイズであり、13 * 13 *テンソル結果[3 + 4 *(1 + 80)]のコードに基づいて、* 255 13 * 13 =)

その後、我々の上図の特徴抽出から出力される前に2つの層の畳み込み、及び畳み込み層2のサンプリング時間は、畳み込み層を得ました。我々はまた、畳み込みのネットワーク層の正面から特性図のB(上記Aサンプル出力同じサイズW * H)を取得し、B Aは私達の特性図を得るために組み合わさサンプリング特徴マップと直列にそれを使用してC. この方法は、特徴Aより意味のある意味情報から取得したサンプルに私たちを可能にする、初期粒度B、前記図からより多くの情報を得ます。その後、我々は2Nの、最終的には同様の予測テンソル、テンソル今2倍のサイズ(なぜならサンプル倍、図Cの機能の組み合わせのいくつかの層のコンボリューション処理を追加し、× 2N×[3 *(4 + 1 + 80)= 26 * 26 * 255)。
我々は、その結果得られた4N×4N×[3 *(再度ボックスの最終的な大きさを予測するために設計された同一の第二工程を行っ 4 + 1 + 80)= 52 * 52 * 255。したがって、我々はすべての先験的計算と三次元のきめ細かい早期予測のネットワーク特性の恩恵を受ける。


我々はまだ私達のアプリオリのバウンディングボックスを決定するためにk-meansクラスタリングを使用します。私達はちょうど9つのクラスタと3次元を選択し、各クラスタの規模で均等に分割する必要があります。それぞれCOCOデータセット、9つのクラスター、(10×13)、(16×30)、(33×23)、(30×61)、(62×45)、(59×119)、(116×上90)、(156×198)、(373×326)。

ラージオブジェクトを検出するのに適した、図13 *の最小フィーチャ13(最大受容野)、先験的大きなブロック(116x90)、(156x198)の適用、(373x326)。*図26における媒体26前記塗布媒体先行ブロック(30x61)の(培地受容野)、(62x45)、(59x119)、中型物体検出に適し。大きな特性図(小さい受容野)先願小さいボックス(10x13)、(16x30)、(33x23)上52 * 52は、小さな物体を検出するようになっ。

2.4。特徴抽出 

私たちは、特徴抽出のための新しいネットワークを使用しています。我々の新しいネットワークはYOLOv2、新規かつ残留ネットワークで使用されるネットワークダークネット-19との間のハイブリッドアプローチです。当社の継続的なネットワーク層3×3畳み込みと1×1、そして今、いくつかのクイックコネクタ、および大規模なネットワークがあります。これは、53畳み込み層を有しています。.....待っダークネット-53!
ダークネット-19よりもこの新しいネットワークは、はるかに強力で、より効率的なResNet-101またはResNet-152を超えています。
ここImageNetのいくつかの結果は以下のとおりです。

各ネットワークは、同じ設定を使用して訓練された、256×256の単一の切断精度で試験します。ファイル名を指定して実行時間を測定し、256×256の速度でタイタンXにありました。したがって、ダークネット-53の性能と最も高度な分類は同等であるが、より少ない浮動小数点演算、高速。ダークネット-53 1.5倍速く、より良いResNet-101よりも、。ダークネット-53性能と同様のResNet-152、及び後者の2倍の速度。
ダークネット-53はまた、毎秒最高浮動小数点演算を達成しました。GPUのネットワーク構造より良い使用は、これより速く、より効果的な評価とを作るために、この手段。あまりにも多くのResNets層、効率が高くないので、これは主にです。

2.5。トレーニング 

我々はまだ完全なイメージではなく、負のハード(ハー​​ド負マイニング)、または任意の他の方法でサンプルの掘削を訓練しています。私たちは、マルチスケールトレーニング、データ拡張、バッチの標準化、および他のすべての標準的なものをたくさん使用しています。私たちは、ダークネットニューラルネットワーク訓練するためのフレームワークとテスト[14]を使用します。

 
3.私たちはどうすればよいです 

表3 YOLOv3非常に良いです!:

3倍高速SSDとかなり変形であるが、平均メトリックココスAP、という点で。それにもかかわらず、この指標には、それはまだ遠く、他のモデルRetinaNetなどが遅れています。
しかし、我々が見るときIOU = 0.5(またはAPのフィギュア50「古い」検出メトリックマップの)YOLOv3非常に強力知ら部門、。これは、ほぼ同等RetinaNetとSSよりもはるかに高いD変異体。これはYOLOv3は、オブジェクトのためのまともなボックスを生成で非常に強力なプローブ、良いであることを示します。しかし、IOUのしきい値の増加に伴い、パフォーマンスが大幅にフレームに難しいYOLOv3が完全オブジェクトと一致することを示唆し、削減されます

過去には、YOLOは小さなオブジェクトと戦います。しかし、現在では、我々はこの傾向の反転を参照してください。新しいマルチスケール予測を通じ、我々は比較的高いYOLOv3 AP参照Sのパフォーマンスを。しかし、ラージオブジェクトのパフォーマンスが比較的貧弱です問題の真実を確かめるために、より多くの調査が必要。
我々はAPで場合50測定の精度と速度のグラフにプロットされている(図3参照)、我々はYOLOv3が他の検出システムに比べて重要な利点を有している参照します。言い換えれば、それはより速く、より良いです。

 

それは動作しませんでした。4.物事我々は試してみました

YOLOv3我々は他の多くの方法をしようとするとき。役に立たない多くの。これは、我々が覚えて使用される方法です:
アンカーボックスは、x、yは予測をオフセット。私たちは、あなたがXを予測する共通のアンカーボックス予測機構を、使用しようと、Y Aの線形活性化ボックスの幅や高さを利用してオフセット倍数。私たちは、効果は非常に良いではありません、このレシピは、モデルの安定性を減少させました。

X線形、ロジスティックのY INSTEAD予測は。我々は、むしろ論理活性化機能よりも、Yオフセット、ダイレクト予測xに線形活性化関数を使用してみました。これは、地図上の点の数の減少につながりました。
損失焦点。私たちは、焦点の損失を試してみました。私たちのマップは、2点を失いました。焦点の損失が問題を解決しようとするために、それは別のオブジェクトクラスの予測と予測条件を持っているので、YOLOv3は、堅牢で十分であったかもしれません。したがって、ほとんどの場合のために、何のクラス予測の損失?それとも何?私たちは完全に確認することはできませんがありません。
しきい値と真実の割り当てIOUデュアル。より速くRCNN IOUは、トレーニング中に2つの閾値を使用します。実際のボックス0.7で予測フレーム重なる場合、それは肯定的な例である、オーバーラップ[0.3 0.7]この間隔の場合、その結果は無視されます。オーバーラップが0.3未満である場合、すべての実際の目的のために、それは負の一例です。私たちは、同様の戦略を試してみましたが、良い結果を取得できませんでした。
私たちは、少なくとも局部的に最適であると思われ、私たちの現在の式を愛しました。これらの技術のいくつかは、最終的に良い結果をもたらす、多分彼らはちょうど訓練を安定させるためにいくつかの調整が必要な場合があります。

 

5.何このすべての手段 

YOLOv3は良い検出器です。これは、高速かつ正確です。IOU 0.5〜0.95、その平均COCO APは高くありません。しかし、それは古い0.5 IOU検出指数に非常に良いことです。
なぜ我々はそれが唯一の方法不可解な文が:?原著論文をCOCOメトリックを変更する必要があります「評価が完了し、サーバーがしたら、評価指標の十分な議論を追加します。」Russakovskyらは、0.3と0.5を区別するのが難しいという人のIOUを報告!「IOUとバウンディングボックス0.3、および0.5別途バウンディングボックス領域としてIOUに人間の視覚検査を訓練し、それは非常に困難です。 ?[18]人間は二つの違いを見分けることは困難である場合には、どのような使用することは、それはそれらを区別することです
が、おそらくより良い質問は次のとおりです。「今、私たちはこれらの検出器を持っていることを、どのように我々はそれらを得るのですか?」 "多くの人々は、GoogleやFacebookの中で、この研究を行っています。私は、少なくとも私たちは技術を十分に把握を知っている、と思うし、確かにあなたの個人情報や販売を収集するために使用されることはありません......待って、あなたはこれがその目的であると言っている?ああ。
他の人が頻繁に視覚研究の軍隊を助成、彼らは、このような多くの人々を殺すために新しい技術を使用するなど、何でもひどいことをやったことがないている、そしてその
ほとんどの人が何かの幸せな、良いものを行うためにコンピュータビジョンを使用することができることを非常に多くの希望を私にシマウマの数の数の国立公園[13]など、またはその猫を追跡[19]自分の家の中で散歩。しかし、コンピュータビジョンは、研究者として、我々は我々の仕事に最も害を及ぼす可能性を検討するために、それを軽減する方法を見つけるために責任を持って、疑問視され始めています。すべての後、私たちはこの世界ではそんなに負います。

 

反論反論

私たちは、私の同僚のRedditのレビューア、ラボ、電子メールの送信者、および廊下からの歓声に感謝したいと思います。あなたが私に似ているなら、私たちはICCVを評価しているあなたは、おそらくあなたが読むことができますが、あなたはいつもいつも最後の週に延期になり、その後、いくつかの伝説がある37の他のファイルは、あなたがこれらのコメントを完了する必要がどのように伝えるためにメールしてきた知っていますこれらのメッセージは完全に多分彼らはそれだけ先に行くかもしれない、あなたはすべての作業は、過去に過去の自己で行われていない場合は、この論文は、最終的にそれが今日あるものになることはありません、どのような場合には?未来から来た、彼らが何を意味するか明確にされていません少しではなく、今まで控えてきました。
ダン・グロスマン(笑まばゆいばかり著者)別名#2をレビューは、私は私たちのチャートの起源を指摘してここにいる二つの非ゼロを持っていると主張します。あなたは絶対的に正しい、ダンは、それは我々がより良い告白2から3パーセントマップの戦いにすべてここにいるので、それがあるよりも良く見えるしています。しかし、このパターンが要求されます。我々はFPSに描画するとき、私たちはスーパーのように見えるので、私はまた、FPSを追加しました。
またJudasAdventusとして知られているのRedditのコメンター#4、で、:.書いた「読み取りに面白いですが、MSCOCO指標に対する引数はビット擁護できないようだ」私はあなたが、ユダの私を裏切ることを知っていました。あなたがプロジェクトをやっているとき、あなたは実際に私はその後、私は基本的にやろうとしている?冷やすないことを証明するためにいくつかの方法を見つけるために持っているので、結果は、良いだろう知っていますいくつかの批判のCOCO指標。私はこの山に杭を設置しましたので、しかし、私もそれに死ぬかもしれません。

それがある方法は、マップは、それが問題の一部を解決することができるので、更新、壊れた、あるいは少なくとも、なぜある程度の新しいバージョンよりよく説明されています。私の最も好きなものは、正当性の欠如です。それはPASCAL VOC、IOUのしきい値のための「意図的にバウンディングボックス内の実際のデータの不正確さを反映することが非常に低く設定」されました。我々は不正確な心配はありませんので、VOCよりCOCOラベルは大丈夫か?これは、そこCOCOのセグメンテーションマスク、おそらくより信頼できるラベルので、絶対に可能です。しかし、私の問題は、正当化の欠如です。
COCOは、バウンディングボックスのより良い対策を強調するが、それは他のものを強調する必要性を強調していることを、この手段は、この場合には、分類精度です。より正確なバウンディングボックスが良く分類よりも重要であると信じる十分な理由があるかどうか?未分類の例では、わずかに移動バウンディングボックスよりも明らかです。
重要なことはすべて、各クラスのランキングですので、すでに、台無しマップ。たとえば、テストセット2つの画像のみならば、マップによると、二つの検出器は、これらの結果は良好とされている生成します。

この問題は明らかに誇張されたマップが、私は私の新しいretconnedポイントは金利および当社の現在の指標のこの「現実世界」の事の人々の間に有意な差だと思う、私はあれば、我々は新しいをしたいと考えてい指標は、我々はこれらの違いを心配する必要があります。また、平均精度(平均平均精度を)持っている、と私たちも、COCOは?平均平均精度(平均平均平均精度)を測定呼ばれ
、ここで人々は本当に気にすることを提案だ絵と検出器与えられ、物体検出と分類画像を検索する方法について説明します。APは、各クラス、方法についての唯一の世界平均精度?APを削除したり、画像ごとに計算して?平均化することが
とにかく、Bボックスは、Iおそらく真の信者マスク愚かですが、私はできませんYOLOがそれらを学びましょう。

 

 

おすすめ

転載: www.cnblogs.com/wanghui-garcia/p/12263773.html