CVPR2023|Xiaohongshu が OvarNet モデルを提案: 開集合予測のための新しい SOTA、および「すべてのものの識別」を行う新しい方法

CVPR2023 で、Xiaohongshu コミュニティ技術チームは、新しいタスクであるオープン語彙オブジェクト属性認識 (オープン語彙オブジェクトの検出と属性認識) を提案しました。このタスクの目的は、単一モデルを使用して、画像内のあらゆるカテゴリのターゲットの位置を特定、分類、属性を同時に予測し、それによってターゲット認識機能の開発をより深く、より広範囲に促進することです。この記事では、大量のマルチモーダル データで事前トレーニングされた視覚言語モデルに基づいて開発された新しいモデル OvarNet を提案します。OvarNet は、利用可能なターゲット検出データと属性認識データを使用して迅速な学習を実行します。同時に、可用性の高いゼロショット認識機能をさらに取得するために、大規模なグラフィック データから詳細なカテゴリと属性の表現を抽出し、弱教師あり学習を実行します。さらに、知識の蒸留を使用してモデル計算の複雑さを簡素化し、OvarNet の実用性と適時性を大幅に向上させます。実験結果は、OvarNet がオープンセットのターゲット検出および属性認識タスクにおいて新しい SOTA を達成し、視覚的なシーンの理解のための意味論的なカテゴリと属性の識別の相補性を証明したことを示しています。

視覚的なシーン内のオブジェクトを理解することは、常にコンピューター ビジョンの開発の主な原動力でした。たとえば、オブジェクト検出タスクは、画像内のオブジェクトの位置を特定し、それらに「車」、「人」、「」などの事前定義された意味ラベルを割り当てることを目的としています。カップ"。物体検出アルゴリズムは大成功を収めているにもかかわらず、視覚的オブジェクトは意味論的なカテゴリに加えて他の多くの側面から説明できるため、このタスク定義は視覚的世界の理解を大幅に簡素化します。たとえば、バスは「黄色」または「黒」である可能性があります。シャツは「ストライプ」または「柄なし」の場合があります。したがって、学習属性はカテゴリレベルの認識を補完することができ、その結果、より包括的できめの細かい視覚的認識が得られます。

膨大な研究により、オブジェクトの特性を理解すると、トレーニング セットにほとんどまたはまったく表示されない視覚オブジェクトの例であっても、オブジェクトの認識と検出が大幅に容易になることが示されています。ただし、これらの先駆的な研究で考慮されている問題は、今日の標準とは程遠いものです。たとえば、属性分類は通常、オブジェクト中心の画像でトレーニングおよび評価され、属性のカテゴリは固定されており、場合によってはオブジェクトのカテゴリさえも事前に知られています。

この論文では、オープンボキャブラリのシナリオでオブジェクトの検出と属性の分類を同時に行うタスクを検討します。つまり、モデルは目に見えるターゲット カテゴリと属性のセットでのみトレーニングされますが、テスト時に目に見えないターゲット カテゴリと属性に一般化する必要があります。以下の図に示すように、. プロパティ。これらのタスクを完了するには、次の 3 つの主な課題が観察されます。 (1) まず、CLIP や ALIGN などの既存の視覚言語モデルでは、画像とテキストのペアから学習される表現は、属性ではなくターゲット カテゴリに偏っていることがよくあります。属性認識タスクに直接使用した場合の特徴の不整合の問題 (2) 第二に、3 種類のアノテーション (ターゲット ボックス、カテゴリ、属性) を同時に含む理想的なトレーニング データ セットは存在しません。私たちが知る限り、このレベルのアノテーションを提供しているのは COCO 属性データセットだけですが、その語彙は比較的限られています (196 属性、29 カテゴリ); (3) 第三に、統一されたフレームワークの下でこれら 3 つのタスクをトレーニングすることはまだ達成されていません。オープンボキャブラリーのシナリオでターゲットの意味カテゴリと属性 (「何を」) を特定する (「どこ」) と説明するかを同時に行うのは困難です。

上記の問題を解決するために、CLIP-Attr と呼ばれる単純なアーキテクチャから始めます。このアーキテクチャでは、まずオフライン RPN を通じて画像からターゲット候補ボックスを抽出し、次に属性単語の埋め込みとターゲット候補の視覚的埋め込みの類似性を比較することで、オープンボキャブラリーのターゲット属性認識を実現します。属性単語と候補ターゲット間の特徴をより適切に調整するために、テキスト エンコーダー側に学習可能なプロンプト ベクトルを導入し、大量の画像とテキストのペア データに対して元の CLIP モデルを微調整します。モデルの効率をさらに向上させるために、単一のフォワード パスで検出と属性認識を可能にする統合フレームワークである OvarNet を提案します。OvarNet は、オブジェクト検出と属性予測の 2 つのデータ セットでトレーニングされ、CLIP-Attr モデルの知識を蒸留することにより、新しい属性や目に見えない属性のパフォーマンスを向上させます。私たちが提案する OvarNet は、オープンボキャブラリーのシナリオでオブジェクトのローカライズと視覚的属性とオブジェクト カテゴリの推論を同時に行うことができる最初のスケーラブルなパイプラインです。実験結果によると、OvarNet は弱く監視された画像データとテキスト データのみを使用して蒸留されていますが、VAW、MSCOCO、LSA、および OVAD データセットに対する以前の最先端技術よりも優れたパフォーマンスを示し、新しい属性とカテゴリに対するその威力を実証しています。

私たちの方法は主に 3 つのステップに分かれています: まず、ターゲット検出データと属性予測データを使用して、オープンな語彙シナリオで単純な 2 段階の方法をトレーニングします。次に、多数のパラメータを使用してこの 2 段階のモデルをさらに微調整します。データを分析するための画像とテキスト、新しい/見たことのないカテゴリと属性のパフォーマンスを向上させ、最後に、一般化とフロントパスの速度を確保するために、知識蒸留のパラダイムに基づいた 1 段階のアルゴリズムを設計しました。

2.1  2 段階のアルゴリズム

ソーシャル グラフ データとして、データの一貫性は非常に重要です。データの最終的な整合性と、特定のシナリオの下での強力な整合性を厳密に保証する必要があります。この目的のために、私たちは次の措置を講じました。

ソーシャル グラフ データとして、データの一貫性は非常に重要です。データの最終的な整合性と、特定のシナリオの下での強力な整合性を厳密に保証する必要があります。この目的のために、私たちは次の措置を講じました。

2.2 グラフィックとテキストを使用したデータの微調整

まず、画像とテキスト データを前処理し、文からカテゴリ語、属性語、名詞句を解析し、次に、事前学習済みの CLIP-Attr を使用してデータを擬似ラベル付けし、最後にノイズを回避します。ラベル インパクト、マルチインスタンス NCE、損失を介して教師ありトレーニングを実行します。

以下の図は、大量のグラフィックスとテキストを使用してデータの CLIP-Attr を微調整するネットワーク構造図を示しています。

2.3 一段蒸留アルゴリズム

オープンボキャブラリーのターゲット属性の予測は、事前に計算された提案ボックスと前述の CLIP-Attr モデルを通じて実現できますが、トリミングされた各領域がビジュアル エンコーダーに入力されるため、推論プロセスには非常に時間がかかります。このパートでは、推論速度の遅さを解決し、OvarNet と呼ばれるオブジェクト検出と属性予測のための Faster-RCNN タイプのモデルをエンドツーエンドでトレーニングすることを目的としています。画像は、ビジュアル エンコーダ、カテゴリに依存しない領域提案ネットワーク、およびオープン辞書属性分類ネットワークを順次通過します。

下の図はその全体的なネットワーク フレームワークです。未知のカテゴリと属性を処理するモデルの能力を向上させるために、蒸留用の CLIP-Attr モデルの知識をさらに追加しました。

私たちが考える公開語彙オブジェクトの属性認識は、公開語彙オブジェクトの検出と、検出されたすべてのオブジェクトの属性分類という 2 つのサブタスクで構成されます。使用されるデータセットは、MS-COCO、VAW、LSA、および OVAD です。モデルのパフォーマンスを評価するために、インデックス評価でボックス指定設定とボックスなし設定の両方を考慮し、評価に mAP を使用します。

3.1  COCO と VAW の結果

3.2  OVAD と LSA の結果

3.3 いくつかの視覚化結果

この論文では、オープンレキシコンのオブジェクト検出と属性認識、つまりオブジェクトの位置を特定し、その意味論的カテゴリと視覚的属性を同時に推論する問題を検討します。まず、事前トレーニング済みの CLIP を使用してオブジェクトの提案を分類する単純な 2 段階のフレームワーク (CLIP-Attr) から始めます。オブジェクト中心の視覚的特徴と属性の概念をより適切に調整するために、テキスト エンコーダー側で学習可能なキュー ベクトルを使用します。トレーニング面では、物体検出と属性予測データセットを活用する共同トレーニング戦略を採用し、外部の画像とテキストのペアを活用して新しい属性を識別する際の堅牢性を高める弱教師ありトレーニング スキームを検討します。最後に、計算効率を向上させるために、CLIP-Attr の知識を Faster-RCNN タイプのモデル (OvarNet と呼ばれる) に抽出します。VAW、MS-COCO、LSA、OVAD を含む 4 つの異なるベンチマークで評価したところ、物体検出と属性予測を共同トレーニングすることで、視覚的なシーンの理解を容易にし、2 つのタスクを個別に処理する既存の方法よりも大幅に優れていることがわかり、新しい属性を処理するための強力な汎化機能を実証しました。そしてカテゴリー。

コンテンツを完全に理解することは、コンテンツの推奨と検索のための効果的なツールです。小紅書の 2 列レイアウトのシナリオでは、ノートの表紙画像を理解することが特に重要です。この記事で示したオープンセットのターゲット属性認識機能を使用すると、より細かい粒度でカバー画像を構造的に理解することができます。たとえば、人物の検出に加えて、人物の服装や姿勢などの属性をさらにマークして、推奨および検索時によりインテリジェントでパーソナライズされたコンテンツの推奨を実現することもできます。さらに、Xiaohongshu のコンテンツ品質システムを構築する際、画像の完全な分析を通じてメモの品質グレーディングをより正確に記述することができるため、品質に基づいてコンテンツの差別化された配信を実現できます。

論文アドレス: https://arxiv.org/abs/2301.09506

チェン・キーヤン

彼は現在、北京航空航天大学で博士課程の学生として勉強しており、IEEE Proceedings、TGRS、CVPR などに多くの論文を発表しています。主な研究方向は、リモートセンシング画像処理とマルチモーダル学習です。

レゴ

Xiaohonshu の生態アルゴリズム チームの責任者。CVPR、ICCV、ECCV、TNNLS、TGRS およびその他のジャーナルに 10 以上の論文を発表しており、YouTube-VOS ビデオ セグメンテーション コンペティションではトップ 3 にランクされ、Tianchi Visual では準決勝で 1 位を獲得しています。セグメンテーショングランプリ。主な研究方向:ターゲット追跡、ビデオセグメンテーション、マルチモーダル分類/検索など。

タン・シェン

小紅書知的創造チームの責任者。彼は、CVPR、ECCV、ICCV、TIFS、ACMMM などの会議やジャーナルに 20 近くの論文を発表しています。WiderFace および FDDB 国際リストの世界記録を繰り返し更新し、ICCV Wider Challenge 国際顔検出コンテストで優勝し、ICCV VOT 単一ターゲット追跡チャンピオンとなり、CVPR UG2+ で準優勝しました。

おすすめ

転載: blog.csdn.net/REDtech_1024/article/details/131415133