10,000 フレームのビデオのターゲット セグメンテーション、メモリ使用量は 1.4GB 未満、コードはオープンソース | ECCV 2022

Min Min は Aofeisi
Qubit から送信されました | パブリック アカウント QbitAI

おい、なんで藤原千花が急に「高温レッドバージョン」になったんだ?

23a6db7361e17f03fa57e47079bed81e.gif

この大きな紫の手、もしかしてサノスは生きているのでしょうか??

0203f47eb00552f4ba65f28502be467c.gif

上記の効果は後段でオブジェクトに色を付けるだけだと思っているなら、あなたは本当に AI に騙されています。

これらの奇妙な色は、実際にはビデオ オブジェクトのセグメンテーションを表しています。

しかし、u1s1、この効果はしばらくの間は区別するのが非常に困難です。

かわいい女の子の踊る髪でも。

332c04f6a5f391c706364fc3261aa4ca.gif

または、タオルや形が変化する物体が前後にブロックされます。

94aabb441d702fcdba7ffd6507aa98ec.gif

AI によるターゲットのセグメンテーションは、まるで色が「溶接された」かのように、完璧にフィットしていると言えます。

この手法はオブジェクトを高精度にセグメント化できるだけでなく、10,000 フレームを超えるビデオにも対応できます。

さらに、セグメンテーション効果は常に同じレベルに維持され、ビデオの後半は依然として滑らかで上質です。

bbec832b412b4019dbffe2850f9ced1f.png

さらに驚くべきことに、この方法は GPU に対する負荷がそれほど高くありません。

研究者らによると、実験中、この方法では1.4GBを超える GPU メモリが消費されることはありませんでした。

ご存知のとおり、アテンション メカニズムに基づく現在の同様の方法では、通常の消費者向けグラフィック カードでは 1 分を超えるビデオを処理することさえできません。

これは、イリノイ大学アーバナ シャンペーン校の学者によって最近提案された長いビデオ ターゲット セグメンテーション手法であるXMemです。

現在、ECCV 2022 に承認されており、コードもオープンソース化されています。

このようなシルキーな効果は Reddit で多くのネチズンを魅了し、人気は 800 以上に達しました。

f962ac784021a8a5cd74bfbd242d77f7.png

ネチズンは冗談を言っています:

なぜ手を紫に塗るのですか?

サノスがコンピュータービジョンに趣味を持っているかどうかは誰にも分かりません。

c9d16c46724a4e58b13f2cb20bbfffb3.png

人間の記憶の模倣

現在、多くのビデオ オブジェクト セグメンテーション方法がありますが、処理速度が遅い、GPU に対する要件が高い、または精度が不十分です。

本稿で提案する手法は上記 3 つの側面を考慮したものであるといえる。

長いビデオのオブジェクト セグメンテーションを迅速に実行できるだけでなく、フレーム レートが 20FPS に達し、同時に通常の GPU で完了することができます。

この作品の特徴は、人間の記憶パターンにインスピレーションを得ているということです。

1968年、心理学者のアトキンソンとシフリンは、多重記憶モデル(アトキンソン・シフリン記憶モデル)を提案しました。

このモデルによると、人間の記憶は即時記憶、短期記憶、長期記憶の 3 つのモードに分類できます。

上記のモデルを参照して、研究者らはまた、AI フレームワークを 3 つの記憶方法に分割しました。彼らです:

  • 時間内に更新される瞬間的なメモリ

  • 高解像度のワーキングメモリ

  • 濃厚な長期記憶。

3508bcfa33ee0b6a0dce0c4722601306.png

このうち瞬間メモリはフレームごとに更新され、画面内の画像情報を記録します。

ワーキングメモリは一時メモリから画像情報を収集し、更新頻度は r フレームごとに 1 回です。

作業記憶が飽和すると、圧縮されて長期記憶に移動します。

長期メモリも飽和しますが、廃止された機能は時間の経過とともに忘れられます。通常、これは数千のフレームが処理されると飽和します。

これにより、時間の経過によってGPUメモリが不足することがなくなります。

通常、ビデオ オブジェクトのセグメンテーションには、最初のフレームの画像とオブジェクト マスクが与えられ、モデルは関連するオブジェクトを追跡して、後続のフレームの対応するマスクを生成します。

具体的には、XMem が 1 つのフレームを処理するプロセスは次のとおりです。

62cfaa3b1bc65a0fd1a475406797a1a7.png

AI フレームワーク全体は、3 つのエンドツーエンドの畳み込みネットワークで構成されています。

クエリエンコーダは、クエリ固有の画像特徴を追跡および抽出するために使用されます。

デコーダ、メモリ読み取りステップの出力を取得してオブジェクト マスクを生成する責任があります。

エンコーダ(値エンコーダ) は、オブジェクトの画像とマスクを組み合わせて、新しいメモリ特徴値を抽出できます。

最終値エンコーダによって抽出された特徴値はワーキングメモリに追加されます。

実験結果から、この方法は短いビデオと長いビデオの両方で SOTA を達成します。

f775a4a1debea69b5dc382df1b3a4292.png

長いビデオを処理する場合、フレーム数が増加しても XMem のパフォーマンスは低下しませんでした。

2efc41dcf6c2f104e286cd687c517df8.png

研究チーム

著者の一人は中国人のホー・ケイ(レックス)・チェン氏です。

381b8efa62d9921784771fc572f9a179.jpeg

彼は香港科技大学を大学院の学位を取得して卒業し、現在イリノイ大学アーバナ・シャンペーン校の博士課程の学生です。

研究の方向性はコンピュータビジョンです。

彼の論文の多くは、CVPR、NeurIPS、ECCV などのトップカンファレンスに採択されています。

もう一人の著者はアレクサンダー G. シュウィングです。

982d29e6a17c41081dc8dd4ca7bf1a07.png

彼は現在、イリノイ大学アーバナ・シャンペーン校の助教授であり、チューリッヒ工科大学で博士号を取得しています。

彼の研究方向は機械学習とコンピュータビジョンです。

論文アドレス:
https://arxiv.org/abs/2207.07115

GitHub:
https://github.com/hkchengrex/XMem

おすすめ

転載: blog.csdn.net/u014333051/article/details/125986461