HuakeチームはOVISオクルージョンビデオインスタンスセグメンテーションベンチマークデータセットをリリースしました

コンテンツの概要:インスタンスのセグメンテーションは、さまざまなアプリケーションシナリオで広く使用できます。コンピュータビジョンの分野における重要な研究の方向性として、それは非常に困難で困難でもあります。ただし、多くのシーンでは、オクルージョンが原因で、インスタンスのセグメンテーションが難しい問題になります。最近、中央中国大学、アリおよび他の機関の研究者は、この問題を解決するために、大規模なオクルージョンビデオインスタンスセグメンテーションデータセットOVISを提案しました。

オリジナル: HyperAIスーパー神経

キーワード:オクルージョンビデオインスタンスセグメンテーションコンピュータビジョン


コンピュータビジョンでは、ターゲットの検出が中心的な問題です。ターゲットの検出では、インスタンスのセグメンテーションが最も困難なタスクと見なされています。インスタンスのセグメンテーションは、ターゲットの検出に基づいてオブジェクトのピクセルをセグメント化することです。

オブジェクトはしばしば互いに閉塞し、エンジニアにとって頭痛の種になっています。私たち人間が不明瞭な物体を見るとき、私たちは経験や連想によってそれらを認識することができます。

それで、コンピュータビジョンでは、遮蔽されたオブジェクトは人間のように正確に識別できますか?インスタンスセグメンテーションの研究提案では、オクルージョンによって引き起こされる干渉を解決することが常に重要な研究の方向性でした。

理想的なインスタンスのセグメンテーション
理想的なインスタンスのセグメンテーション

 

実際のインスタンスセグメンテーション

 

この問題を解決するために、華中科技大学、アリババ、コーネル大学、ジョンズホプキンス大学、オックスフォード大学のチームが大規模なデータセットOVIS(Occluded Video Instance Segmentation)を収集しました。これを使用して、遮蔽されたシーンのインスタンスをセグメント化し、追跡します。

 

データセットのターゲットオブジェクトには、主に動物、人、乗り物などの一般的なカテゴリが含まれます。

これは、GoogleYouTube-VISデータセットに続く2番目の大規模なオクルージョンビデオインスタンスセグメンテーションデータセットです。

OVIS:901のひどく閉塞したビデオで生まれました

私たちが通常目にするすべてのものに関しては、ほとんどのオブジェクトが孤立して表示され、多かれ少なかれオクルージョンがあります。しかし、人間の視覚システムの場合、オクルージョンの場合でもターゲットオブジェクトの実際の境界を区別できることが研究によって示されています。コンピュータビジョンシステムの場合、それは大きな問題、つまりオクルージョンされたビデオインスタンスのセグメンテーションの問題になります。 。

この問題をさらに調査して解決するために、Huake、Ali、およびその他の機関のチームは、元のオープンソースインスタンスセグメンテーションアルゴリズムに基づいて、より優れたモデルを開発しようとしました。

この作業を完了するために、チームは最初にOVISデータセットを収集しました。これは、オクルージョンシーンでのビデオインスタンスのセグメンテーションに特に使用されました。最近公開された論文「OccludedVideoInstance Segmentation」では、このデータセットが詳細に紹介されています。

オクルージョンビデオインスタンスのセグメンテーション

紙のアドレス:https://arxiv.org/pdf/2102.01558.pdf

このデータセットを収集するために、チームは10,000近くのビデオを収集し、最終的にそれらから901の厳しく閉塞された、より感動的で複雑なシーンを選択しました。各ビデオには、少なくとも2つの相互に閉塞されたターゲットオブジェクトがあります。

ほとんどのビデオ解像度は1920x1080で、再生時間は5秒から60秒です。彼らは5フレームごとに1フレームの密度に注釈を付け、高品質の注釈を実行し、最終的にOVISデータセットを取得しました。

OVISには、5223個のターゲットオブジェクト用に合計296kの高品質マスクラベルが含まれています。以前のGoogleYoutube-VISデータセットの4883個のターゲットオブジェクトと131kマスクの注釈と比較すると、OVISには明らかに多くのターゲットオブジェクトとマスクの注釈があります。

ただし、チームの哲学は長期的な追跡を実現するために長い動画になる傾向があるため、OVISは実際にはYouTube-VISよりも少ない動画を使用します。OVISの平均ビデオ継続時間と平均インスタンス継続時間は12.77秒と10.55秒であり、対応して、YouTube-VISの2つのパラメーターはそれぞれ4.63秒と4.47秒です。

OVISデータセットとYouTube-VISデータセット間の関連パラメータの比較

遮蔽されたビデオインスタンスをセグメント化するタスクをより困難にするために、チームは特定の数のビデオセグメントを犠牲にし、より長くより複雑なビデオに注釈を付けました。

OVISデータセットには、下の図に示すように、生活の中で合計25の一般的なカテゴリが含まれています。具体的なカテゴリには、人、魚、乗り物、馬、羊、シマウマ、ウサギ、鳥、家禽、象、オートバイ、犬、サル、ボート、カメ、猫、牛、オウム、自転車、キリン、トラ、パンダ、飛行機、クマ、トカゲ。

これらの25のカテゴリは一般的なセマンティックカテゴリです

これらのカテゴリを選択する理由は、主に次の3つのポイントに基づいています。

  1. これらのターゲットはしばしば動いており、重度の閉塞を起こしやすい傾向があります。

  2. それらは人生で非常に一般的です。

  3. これらのカテゴリは、一般的な大規模な画像インスタンスのセグメンテーションデータセット(MS COCO、LVIS、Pascal VOCなど)との重複が多いため、研究者がモデルを移行してデータを再利用するのに便利です。

他の以前のVISデータセットと比較して、OVISデータセット最も注目すべき機能は、さまざまな要因のためにオブジェクトの大部分がひどく遮られていることです。したがって、OVISは、ビデオインスタンスのセグメンテーションモデルを評価して深刻なオクルージョンに対処するための効果的なテストプラットフォームです。

閉塞の重症度を定量化するために、チームは、閉塞の程度を大まかに反映するための指標平均バウンディングボックスオーバーラップ率(mBOR)を提案しました。mBORは、すべての境界ボックスの領域に対する画像内の境界ボックスの重複領域の比率を指します。パラメータ比較リストから、YouTube-VISと比較して、OVISのオクルージョンがより深刻であることがわかります。

OVISデータセットの詳細は次のとおりです。

閉塞したビデオインスタンスのセグメンテーション

オクルージョンビデオインスタンスセグメンテーションデータセット

データソース:「オクルードされたビデオインスタンスのセグメンテーション」

含まれる数量: 5223ターゲットオブジェクト、296kマスク

数: 25種

データ形式:フレーム:jpg;注:Json

ビデオ解像度: 1920×1080

データサイズ: 12.7 GB

ダウンロードリンク: https //hyper.ai/datasets/14585

 OVISは、ビデオインスタンスセグメンテーションのより高いベンチマークを提案します

OVISデータセットは、607のトレーニングビデオ、140の検証ビデオ、および154のテストビデオにランダムに分割されます。チームは、OVISで5つの既存のオープンソースビデオインスタンスセグメンテーションアルゴリズムの包括的な評価を実施しました。同時に、これはOVISデータセットのベースラインパフォーマンスのベンチマークテストでもあります。

評価結果を次の表に示します。

OVIS検証およびテストセットでの各メソッドの定量的比較

 

YouTube-VIS検証セットでの各メソッドのパフォーマンス

 

YouTube0-VISと比較して、OVISでのFEELVOS、IoUTracker +、MaskTrack R-CNN、SipMask、およびSTEm-Segのパフォーマンスは少なくとも50%低下しています。たとえば、SipMaskのAPは32.5から12.1に低下し、STEm-Segは30.6から14.4に低下しました。これらの結果は、ビデオインスタンスのセグメンテーションの問題にもっと注意を払う必要があることを研究者に思い出させます。

さらに、チームはキャリブレーションモジュールを使用して、元のアルゴリズムに基づいてパフォーマンスを大幅に向上させました。それによって開発されたCMaskTrackR-CNNは、元のアルゴリズムMaskTrack R-CNNと比較して12.6から15.2に2.6改善され、CSipMaskはSipMaskと比較して12.1から15.0に2.9改善されています。

OVISでのCMaskTrackR-CNNの定性的評価、各行はビデオシーケンスの5フレームの結果を示しています

 

上の図の写真(c)では、混雑したアヒルの群れで、チームの方法ですべてのアヒルをほぼ正しく検出して追跡していますが、2番目のフレームの左端のアヒルの検出は失敗します。ただし、次のフレームでは、アヒルが再び追跡され、チームのモデルが時間の手がかりをうまく捉えていることが証明されました。

チームは、YouTube-VISデータセットで提案されたCMaskTrack R-CNNおよびCSipMaskアルゴリズムをさらに評価しました。元の方法と比較して、結果はAPの元の方法を上回りました。

将来のアプリケーション:ビデオパノラマセグメンテーション、オクルージョンデータの合成

チームは、OVISで一般的に使用されるビデオセグメンテーションアルゴリズムのベースラインパフォーマンスはYouTube-VISのパフォーマンスよりもはるかに低いと述べました。これは、将来、研究者が遮蔽されたビデオオブジェクトの処理により多くの労力を費やす必要があることを示しています。

さらに、チームは時間的コンテキストキューを使用して、オクルージョンの問題を解決する方法を模索しました。将来的には、教師なし、半教師あり、またはインタラクティブな設定で、ビデオオブジェクトのセグメンテーションシーンにおけるOVISの実験的な軌跡を形式化します。さらに、OVISをビデオパノラマセグメンテーションに拡張することも重要です(注:ビデオパノラマセグメンテーションは、バックグラウンドセマンティックセグメンテーションとフォアグラウンドインスタンスセグメンテーションの両方を実現することです。これは、インスタンスセグメンテーションの分野における最近の新しいトレンドです)。

背景がターゲットオブジェクトを遮り、アルゴリズムによる背景の予測に影響を与えます

 

さらに、合成閉塞データは、チームがさらに調査する必要がある方向でもあります。チームは、OVISデータセットが複雑で多様なシナリオでのビデオの理解に関するより多くの研究につながると信じていると述べました。

この技術は、将来、映画やテレビの特別番組、短編ビデオ、生放送で登場人物と背景を分離する上で重要な役割を果たします。

参考資料:

紙のアドレス:https://arxiv.org/pdf/2102.01558.pdf

プロジェクトの公式ウェブサイト:http://songbai.site/ovis/

Google YouTube-VISデータセット:

https://youtube-vos.org/dataset/vis/

-終了-

QRコードをスキャンして、ディスカッショングループに参加します

より高品質のデータセットを取得する

人工知能の応用を理解する

トップミーティングと論文をフォローする

詳細は「リーダー」に返信

よりエキサイティングなコンテンツ(画像をクリックして読む)

おすすめ

転載: blog.csdn.net/HyperAI/article/details/113903864