Paper Express: AAAI 2023 | Youtu マルチラベル分類、姿勢推定、ターゲット検出、HOI、小規模サンプル学習、その他の研究方向を含む 16 件の論文の概要

最近、AAAI 2023 (人工知能推進協会)国際先進人工知能学会の採択結果が発表され、このセッションには合計 8,777 件の論文が投稿され、1,721 件の論文が採択され、採択率は 19.6% でした。

AAAI は、人工知能分野の主要な学術団体の 1 つであり、人工知能分野の研究と応用を促進し、人工知能に対する国民の理解を高めることを目的とした国際的な非営利科学団体です。この会議は 1980 年に始まり、理論と応用の両方に焦点を当て、人工知能の開発に重要な影響を与える社会、哲学、経済などのトピックについても議論しました。

今年、Tencent Youtu Lab には、マルチラベル分類、姿勢推定、ターゲット検出、HOI、小規模サンプル学習などの研究方向をカバーする 16 件の論文が選ばれ、人工知能分野における Tencent Youtu の技術的能力と学術的成果を実証しています。 。

Tencent Youtu Lab が選択した論文の概要は次のとおりです。

01

ラベル付きノイズによる表情認識に向けて

攻撃は利益をもたらす可能性があります: 敵対者 

ノイズの多い注釈下での顔の表情を認識するアプローチ

大規模な表情データセットでは通常、極度のノイズの多いラベルの問題が発生し、モデルはノイズの多いラベル サンプルに過剰適合する傾向があります。同時に、表情データセットも極端なカテゴリ分布の不均衡を示しており、この 2 つの問題が相互に絡み合っているため、表情認識データ内のノイズの多いラベルの問題を解決することが困難になっています。

この論文では、敵対的攻撃を使用してノイズのあるラベル サンプルの位置を特定する、新しいノイズのあるラベルの位置特定と再ラベル付けの方法を提案します。まず、データ分散の不均衡の影響を軽減するために、このペーパーでは、トレーニング セット全体を 2 つの比較的バランスのとれたサブセットに分割する分割統治戦略を提案します。

第 2 に、2 つの観察に基づくと、(1) ノイズの多いラベルでトレーニングされたディープ畳み込みニューラル ネットワークの場合、決定境界付近のデータは区別がつかず、誤ったラベルが付けられる可能性が高くなります、(2) ノイズの多いラベルのネットワークの記憶は、敵対者にとって重大な弱点につながる可能性があります。では、トレーニング セット内でより攻撃可能なデータを発見し、それらを候補ノイズ サンプルとしてラベル付けできる、ジオメトリを認識した敵対的脆弱性推定方法を設計します。最後に、残りのクリーンなデータを使用して、これらの候補ノイズ サンプルのラベルを付け直します。

実験結果は、私たちの方法がSOTAを達成することを示し、関連する視覚化結果も提案された方法の利点を示しています。

02

フェデレーテッド ラーニングの堅牢性に関する研究

敵対関係を掘り下げる 

Federated Learning の堅牢性

中央でトレーニングされたモデルと同様に、フェデレーテッド ラーニング (FL) でトレーニングされたモデルにも敵対的な堅牢性が欠けています。この論文では主に、フェデレーテッド ラーニングにおける敵対的な堅牢性について説明します。既存の FL 手法の堅牢性をより深く理解するために、さまざまな敵対的攻撃と敵対的トレーニング手法を評価します。

さらに、FL で敵対的トレーニングを直接採用することのマイナス面、つまり、特に非 IID 設定では、クリーンなサンプルの精度が大幅に損なわれる可能性があることを明らかにしました。この研究では、FL システムの精度と堅牢性を向上させるために、2 つのコンポーネント (つまり、ローカル再重み付けとグローバル正則化) で構成される、決定境界ベースのフェデレーテッド敵対的トレーニング (DBFAT) 手法を提案します。

複数のデータセットに対する広範な実験により、DBFAT は IID 設定と非 IID 設定の両方で他のベースライン手法よりも一貫して優れていることが示されています。

03

 TaCo: 対照的な学習ベースのツール

テキスト属性の認識方法

TaCo: テキスト属性認識 

対照学習による

オフィスのデジタル化プロセスが継続的に加速する中、人工知能技術を利用して、入力された文書画像の内容を自動的、迅速、正確に分析し、さらに理解、抽出、要約する、つまりドキュメントインテリジェンス(DocAI)が現在利用されています。コンピューター ビジョンと自然言語処理のクロスオーバー。このテーマの人気のある研究方向。Youtu の実際のビジネス シナリオでは、ドキュメント インテリジェンス テクノロジが優れたビジネス価値を生み出し、フォームの理解、レイアウト分析、その他のシナリオで重要な役割を果たしています。視覚的にリッチなドキュメントのユニークなマルチモーダル属性、つまりテキスト コンテンツ、画像情報、ドキュメント全体のレイアウトが高度に結合していることは、問題の複雑さを増大させるだけでなく、技術革新の新たな焦点も提供します。

テキストは重要な情報伝達手段です。内容だけでなく、フォント/色/斜体/太字/下線などのさまざまな視覚的属性も、デザイナーのアイデアやアイデアを伝えます。テキストの正確な視覚的属性を取得できれば、デザイン実務者が資料を迅速に入手したり、文書の画像を Word に変換するなどの効率化ツールを開発したりするのに直接役立ちます。しかし、何千もの中国語と英語のフォントが、オープンカラーデザインや太字や斜体などのさまざまな状態と組み合わされているため、テキストデザインの専門家にとってさえ、テキストの視覚的属性を正確に判断することは大きな課題です。したがって、テキストの視覚的属性を認識する能力の開発は、幅広い応用を可能にする可能性を秘めています。

テキストの視覚属性間の違いは微妙であることが多いため、テキストの視覚属性認識システムの設計は想像ほど簡単ではありません。フォントを例にとると、多くの場合、2 つの異なるフォント間の局所的な詳細にはわずかな違いしかありません。新しいテキスト スタイルが増え続けると、認識の困難さがさらに悪化し、システムの一般化に対する要件もさらに高まります。さらに、実際には、スキャンされた PDF やよく撮影された画像でもノイズやぼやけが生じ、局所的な細部の区別がより困難になり、特徴空間での分割がより困難になることが観察されました。

アルゴリズムの観点から見ると、テキストの視覚属性認識は、テキスト画像を入力し、テキストの各視覚属性を出力するマルチラベル分類問題として定義できます。既存のアート ソリューションは 3 つのカテゴリに分類できます。 1) 手作りの特徴記述子とテンプレート マッチングに基づく方法。通常、異なるテキスト属性は異なる視覚スタイルを持ち、統計的特徴によって記述および識別できます、2) ネットワークを使用して特徴を抽出し、認識に使用するディープ ニューラル ネットワークに基づく分類方法、3) シーケンス ベースの属性認識方法。実際のシーンを観察すると、1 つのテキスト行内の複数の文字が一貫した属性を持っていることがよくあります。入力画像を信号の連続シーケンスとして扱い、時間的相関をモデル化することにより、関連情報と文字間の意味的一貫性を利用して認識効果を向上させることができます。

残念ながら、上記の解決策には次のような問題があります。 1) データの前処理プロセスが複雑です。教師あり手法は、専門家によってラベル付けされた大量のデータに依存しています、2) スケーラビリティが低く、一部の事前定義されたカテゴリのみをサポートしています、3) 精度が低いため、実際のシナリオで同様の属性の微妙な違いを捕捉することが困難です。

上記の観察に基づいて、私たちはギャップを埋めるために TaCo (Textual Attribute Recognition via Contrastive Learning) システムを設計しました。

04

Twin Cloze オートエンコーダーに基づく

自己教師あり視覚事前訓練法

悪魔は周波数の中にいます: 

ジェミネートされたゲシュタルト オートエンコーダー 

自己監視型ビジュアル事前トレーニング

近年、自己教師ありマスク画像モデリング (MIM) パラダイムは、ラベルのないデータから視覚表現を学習する優れた能力により、ますます多くの研究者の関心を集めています。このパラダイムは、マスク画像からコンテンツを復元する「マスク再構成」プロセスに従っており、高レベルの意味論的抽象表現を学習するために、一連の研究作業では大規模なマスク戦略を使用してピクセルを再構成しようとしています。

ただし、このタイプの方法には「過度の平滑化」という問題があります。対照的に、他の方向の作業では、追加のデータが導入され、オフラインの方法でセマンティクスが教師付き情報に直接組み込まれます。上記の方法とは異なり、グローバル ビューを使用してビューをフーリエ領域に転送し、ビジョン事前トレーニング タスクを解決するために使用される Gemini Cloze Autoencoder (Ge2-AE) と呼ばれる新しいマスク イメージ モデリング (MIM) 手法を提案します。

具体的には、モデルに一対の並列デコーダを装備します。これらのデコーダは、相互制約を設けながら、それぞれピクセル空間と周波数空間から画像コンテンツを再構築する役割を果たします。この方法を使用すると、事前トレーニングされたエンコーダーはより堅牢な視覚表現を学習でき、下流の認識タスクに関する一連の実験結果により、この方法の有効性が確認されます。

また、私たちの手法の学習モードを研究するために、定量的および定性的な実験も実施します。業界では、これは周波数領域の観点から視覚的な事前トレーニング タスクを解決する初の MIM 作品です。

05

ローカリゼーションの再生成: 境界ボックスベースのビジュアル言語の接続

シーンテキストビジュアル質問回答方法

見つけて生成: 橋渡しビジョン 

境界ボックスを使用した言語と 

シーンテキスト VQA 用

*この記事はTencent Youtu Labと中国科学技術大学が共同で完成させたものです

本稿では、質問応答のために画像内のシーンテキストを読み取ることができる、新しいマルチモーダルシーンテキストビジュアル質問応答フレームワーク(STVQA)を提案します。独立して存在できるテキストまたは視覚オブジェクトに加えて、シーン テキストは画像内の視覚オブジェクトでありながら、言語の意味論を伝えることによってテキストと視覚形式を自然に接続します。

シーンテキストの言語的セマンティクスと視覚的セマンティクスを 2 つの独立した特徴とみなす従来の STVQA モデルとは異なり、この論文は、これら 2 つのセマンティクスを明示的に統合し、空間的セマンティクスを使用する「Locate-Later-Generate」(LTG) パラダイムを提案します。境界ボックスはそれらを接続するブリッジとして機能します。

具体的には、LTG はまず、エリア提案ネットワークと言語洗練ネットワークで構成される回答ローカライゼーション モジュール (ALM) を利用して、回答ワードを含む可能性のある画像内の領域をローカライズします。両方とも、シーン テキストによる 1 対 1 のマッピングを通じて変換されます。境界ボックス。次に、ALM によって選択された応答単語が与えられると、LTG は、事前トレーニングされた言語モデルに基づく応答生成モジュール (AGM) を使用して、読み取り可能な応答シーケンスを生成します。視覚と言語セマンティクスの明示的な調整を使用する利点は、シーンのテキストベースの事前トレーニング タスクがなくても、LTG は TextVQA データセットと ST-VQA データセットで絶対精度をそれぞれ 6.06% と 6.92% 向上させることができることです。事前学習されていないベースライン手法と比較して、LTG が空間バウンディング ボックス接続を介して視覚的モダリティとテキスト モダリティを効果的に統合することをさらに実証します。これは、以前の手法では軽く研究されてきました。

06

少数の実際のサンプルに基づいた堅牢なネットワーク グラフのプロトタイプ学習

FoPro: 少数ショットのガイド付き、堅牢な Web 監視付きプロトタイプ学習

最近、インターネット (画像) ベースの教師あり学習 (WSL) 研究は、インターネットからアクセス可能な大量のデータを活用することを目的としています。既存の手法のほとんどは、インターネット画像からノイズに強いモデルを学習することに焦点を当てており、インターネット画像ドメインと現実世界のビジネス ドメインの違いによって生じるパフォーマンスの低下を無視していることがよくあります。上記のパフォーマンスのギャップに対処することによってのみ、インターネット上のオープンソース データセットの実用的な価値を最大限に活用することができます。

この目的を達成するために、少数の実世界のサンプルを利用して、Web 上の画像のプロトタイプ表現の学習をガイドする FoPro と呼ばれる方法を提案します。実際のビジネス シナリオでは少数のラベル付きサンプルのみが必要であり、実際のビジネス ドメインでのモデルのパフォーマンスを大幅に向上させることができます。

具体的には、この方法は、少量の実シーン データを使用して、各カテゴリ センターの特徴表現を「現実的な」プロトタイプとして初期化します。次に、ネットワーク画像インスタンスと実際のプロトタイプの間のクラス内距離が、対照学習によって短縮されます。最後に、この方法では計量学習を使用して、ネットワーク イメージと各カテゴリのプロトタイプの間の距離を測定します。カテゴリ プロトタイプは、表現空間内の隣接する高品質ネットワーク画像によって継続的に修正され、遠く離れた配布外サンプル (OOD) の削除に参加します。

実験では、FoPro はいくつかの実世界のサンプルを使用してネットワーク データセットのトレーニングと学習をガイドし、実世界のデータセットで評価しました。この方法は、3 つのきめ細かいデータセットと 2 つの大規模データセットで最先端のパフォーマンスを実現します。既存の WSL 手法と比較して、少数の実際のサンプルの同じ実験設定の下で、FoPro は実際のシーンで優れた汎化パフォーマンスを示します。

07

一般的な粗密ビジョン

変圧器加速ソリューション

CF-ViT: 一般的な粗いものから細かいものまで 

ビジョントランスフォーマーの手法

*この記事はTencent Youtu Labと厦門大学が共同で執筆したものです

Vision Transformers (ViT) の中核となる動作はセルフアテンションであり、セルフアテンションの計算量は入力トークン数の 2 乗に比例するため、ViT の計算量を圧縮する最も直接的な方法は、ViT の計算量を削減することです。推論時のトークン数、つまり画像分割のパッチ数を減らすため。

この論文では、2 段階の適応推論によって推論プロセスのトークンの数が削減されます。第 1 段階では、画像を粗い (大きなサイズの) パッチに分割します。その目的は、「単純」を識別するための計算量を減らすことです。サンプル。第 2 段階では、少ない計算量で「困難な」サンプルを識別することを目的として、第 1 段階を中程度の情報量の粗いパッチに分割し、さらに細かい (サイズの小さい) パッチに分割します。

この論文はまた、情報量の多い粗粒パッチを識別するためのグローバルな注意と、2 段階推論のモデル能力を高めるための特徴多重化メカニズムを設計します。この方法は、Top-1 の精度に影響を与えることなく、ImageNet-1k 上で LV-ViT-S の FLOP を 53% 削減し、GPU 上で測定された推論速度も 2 倍高速化しました。

08

視覚言語の知識を通じて抽出された

エンドツーエンドの人間とオブジェクトのインタラクション検出

視覚と言語知識の蒸留によるエンドツーエンドのゼロショット HOI 検出

既存の人間とオブジェクトのインタラクション検出方法のほとんどは、事前に定義された人間とオブジェクトのインタラクション カテゴリを含む完全なアノテーションに大きく依存していますが、多様性が限られており、さらに拡張するにはコストがかかります。私たちの目標は、ゼロショットの人間とオブジェクトのインタラクション検出を進歩させ、可視と不可視の両方の人間とオブジェクトのインタラクションを検出することです。基本的な課題は、人間と物の潜在的なペアを発見し、人間と物の相互作用の新しいカテゴリーを特定することです。上記の課題を克服するために、視覚言語知識抽出に基づいた新しいエンドツーエンドのゼロショット人間とオブジェクトのインタラクション検出フレームワークを提案します。

まず、アクションに依存しない方法で人物とオブジェクトのペアのインタラクション識別を可能にする、2 段階の 2 部マッチング アルゴリズムと組み合わせたインタラクティブなスコアリング モジュールを設計します。次に、事前にトレーニングされた視覚言語教師からのアクション確率分布を、観測されたグラウンドトゥルースの注釈とともに、ゼロショットの人間とオブジェクトの相互作用分類のために人間とオブジェクトの相互作用検出モデルに転送します。HICO Det データセットに対する広範な実験により、私たちのモデルが潜在的な相互作用ペアを発見し、未知の人間と物体の相互作用を識別できることが実証されました。最後に、私たちの方法は、さまざまなゼロショット設定の下で、以前の最先端の方法よりも優れたパフォーマンスを発揮します。さらに、私たちの方法は、アクションセットをさらに増幅するために大規模な物体検出データに一般化できます。

09

マルチモーダル知識伝達に基づくオープン辞書のマルチラベル学習

オープンボキャブラリーマルチラベル 

マルチモーダルによる分類

 知識の伝達

実際のアプリケーションでは、分類モデルはトレーニング セットに現れない多数のラベルに必然的に遭遇します。これらのラベルを認識するために、従来のマルチラベル ゼロショット学習方法では、GloVe などの言語モデルを導入することにより、トレーニング セットの目に見えるラベルからトレーニング セットの目に見えないラベルへの知識の伝達が実装されています。単峰性言語モデルは、ラベル間の意味論的な一貫性を適切にモデル化しますが、画像分類における重要な視覚的な一貫性情報を無視します。

最近、グラフテキスト事前トレーニング モデルに基づく Open-Vocabulary 分類モデルは、単一ラベルのゼロショット学習で目覚ましい結果を達成しましたが、この機能を複数ラベルのシナリオに移行する方法については、依然として緊急に検討する必要があります。

この論文では、著者はマルチラベルのオープン辞書分類を実現するためのマルチモーダル知識伝達(MKT)に基づくフレームワークを提案します。具体的には、画像テキスト事前学習モデルの強力な画像テキストマッチング能力に基づいたラベル予測を実現します。ラベル マッピングを最適化し、画像ラベル マッピングの一貫性を向上させるために、著者はプロンプト学習 (Prompt-Tuning) と知識蒸留 (Knowledge Distillation) を導入します。

同時に、著者は、ローカルとグローバルの特徴を同時にキャプチャし、モデルのマルチラベル認識能力を向上させる、シンプルだが効果的なデュアルストリーム モジュールを提案します。NUS-WIDE と OpenImage という 2 つの公開データセットでの実験結果は、この方法がマルチラベルのオープンセット学習を効果的に実装していることを示しています。

10

適応型階層ブランチ融合に基づく

オンライン知識蒸留アルゴリズムの概要

適応型階層とブランチの融合 

オンラインでの知識の蒸留

*この記事はTencent Youtu Labと華東師範大学が共同で執筆したものです

オンライン知識蒸留では、知識蒸留に事前トレーニングされた教師モデルを使用する必要がないため、知識蒸留の柔軟性が大幅に向上します。既存の手法は主に、複数のスチューデント ブランチのアンサンブル後の予測精度の向上に焦点を当てており、スチューデント モデルをすぐに過剰適合させてパフォーマンスを低下させる均質化の問題を無視していることがよくあります。この問題は、同じブランチ アーキテクチャの使用と不適切なブランチ統合戦略が原因で発生します。この問題を軽減するために、この論文では、オンライン知識蒸留のための新しい適応型階層分岐融合フレームワーク (AHBF-OKD と略称) を提案します。

このフレームワークは主に、モデルの多様性を向上させるために階層ブランチ構造と適応階層ブランチ融合モジュールを設計し、異なるブランチの知識が相互に補完できるようにします。特に、最も複雑なブランチから最も単純なターゲットブランチに知識を効率的に転送するために、本論文では、階層間補助教師モジュールを再帰的に作成する適応型階層ブランチ融合モジュールを提案します。トレーニング中、補助教師モジュール内の上位レベルからの知識は、現在の階層内の補助教師モジュールと生徒ブランチに効果的に抽出されます。したがって、異なるブランチの重要度係数がブランチの均一性を減らすために適応的に割り当てられます。

広範な実験により、CIFAR-10/100 や ImageNet 2012 などのさまざまなデータセットに対する AHBF-OKD の有効性が検証されています。たとえば、蒸留された ResNet18 は、ImageNet 2012 で 29.28% のトップ 1 エラー率を達成します。

11

画像間の整合性に基づく複数人物姿勢推定手法

複数人の姿勢推定のための画像間のコントラストの一貫性

近年、複数人姿勢推定 (MPPE) において目覚ましい進歩が見られました。ただし、オクルージョンや人体の外観の大きな違いにより、モデルが一貫したキーポイント表現を学習することは困難です。本稿では、MPPEタスクにおける画像間のキーポイント特徴の一貫性を高めるための画像間コントラスト一貫性手法を提案する。

具体的には、単一キーポイント コントラスト一貫性 (SKCC) とペアワイズ キーポイント コントラスト一貫性 (PRCC) を含む二重一貫性制約を考慮します。SKCC は、画像内の同じカテゴリのキー ポイントの一貫性を強化するために使用され、それによって特定のカテゴリの堅牢性が向上します。SKCC を使用すると、モデルは外観の変化による位置特定エラーを効果的に減らすことができますが、キーポイントの構造関係のガイダンスが欠如しているため、極端なポーズ (オクルージョンなど) の下では依然として困難です。したがって、画像間のペアごとのキーポイント関係の一貫性を強制する PRCC を提案します。PRCC は SKCC と協力して、極端なポーズを処理するモデルの能力をさらに向上させました。

3 つのデータセット (MS-COCO、MPII、CrowdPose) に対する広範な実験により、提案された ICON がベースラインを超えて大幅な改善を達成することが示されました。

12

変分特徴融合に基づく少数ショット物体検出モデル

少数ショットの物体検出 

変分特徴の集約

少数ショットのオブジェクト検出器は通常、より多くのサンプルを含む基本クラスでトレーニングされ、より少ないサンプルを含む新規クラスで微調整されるため、学習されたモデルは通常、基本クラスに偏り、新規クラスのサンプルの分散に敏感になります。この問題に対処するために、この論文ではメタ学習フレームワークに基づいた 2 つの特徴集約アルゴリズムを提案します。

具体的には、この論文はまず、カテゴリに依存しない特徴集約アルゴリズム CAA を提案します。これにより、モデルは、クエリ (Query) 機能とサポート (Support) 機能の異なるカテゴリを集約することによってカテゴリに依存しない特徴表現を学習でき、基本クラスの新規性との混乱が軽減されます。クラス。

CAA に基づいて、この論文は、サンプルをカテゴリの分布にエンコードすることにより、より堅牢な特徴集約を実現する変分特徴集約アルゴリズム VFA を提案します。この論文では、変分オートエンコーダ (VAE) を使用して、サンプルの分散に対してよりロバストな分布からカテゴリの分布とサンプルの変分特徴を推定します。

さらに、分類タスクと回帰タスクを分離して、オブジェクトの位置特定を損なうことなく分類ブランチで特徴の集約を実行できるようにします。

13

カモフラージュされたオブジェクトのセグメンテーションのための高解像度の反復フィードバック ネットワーク

偽装物体検出のための高解像度反復フィードバック ネットワーク

視覚的に背景に同化したカモフラージュされた物体を見つけることは、物体検出アルゴリズムと人間の両方にとって厄介な問題です。なぜなら、どちらも、前景のオブジェクトと背景の環境の間の内部の完全な類似性によって簡単に混同されたり、だまされたりするからです。

この課題に対処するために、高解像度のテクスチャの詳細を抽出して、エッジや境界に視覚的なぼやけ効果を引き起こす詳細の劣化を回避します。我々は、反復フィードバック方式で高解像度の特徴を通じて低解像度の表現を改善するための新しい HitNet ネットワーク フレームワークを導入します。その本質は、マルチスケール解像度間のグローバル ループベースの特徴の相互作用です。

さらに、より良いフィードバック機能フローを設計し、再帰パスによって引き起こされる機能の崩壊を回避するために、各フィードバック接続により多くの制約を課す反復フィードバック戦略を提案します。

4 つの困難なデータセットに対する広範な実験により、当社の HitNet がパフォーマンスのボトルネックを解消し、35 の最先端の手法と比較して大幅な改善を達成できることが実証されました。さらに、迷彩シナリオにおけるデータ不足の問題に対処するために、顕著なオブジェクトを迷彩オブジェクトに変換するアプリケーションを提供します。これにより、さまざまな顕著なオブジェクトからより多くの迷彩トレーニング サンプルが生成され、そのコードは公開されます。

14

 SpatialFormer: セマンティックと

オブジェクト認識型注意力のための数ショット学習法

SpatialFormer: 少数ショット学習のためのセマンティックおよびターゲットを意識した注意

最近の少数ショット学習方法では、サポート セットとクエリ セット間の類似性を正確に計算するために、強力に識別可能な埋め込み特徴を生成することに重点が置かれています。現在の CNN ベースのクロスアテンション手法は、サポート画像とクエリ画像のペアの意味的に類似した領域を強化することにより、より識別可能な特徴を生成します。ただし、これには 2 つの問題があります。1 つは CNN 構造が局所的な特徴に基づいて不正確なアテンション マップを生成すること、もう 1 つは同様の背景が干渉を引き起こすことです。

これらの問題を軽減するために、グローバルな特徴に基づいてより正確な注目領域を生成する新しい SpatialFormer 構造を設計します。従来の Transformer モデリングの固有のインスタンス レベルの類似性は、小さなサンプルの分類精度の低下につながりますが、SpatialFormer は入力間のセマンティック レベルの類似性を調査してパフォーマンスを向上させます。

次に、背景の邪魔を減らしながらターゲットオブジェクトの領域を強調するために、SpatialFormer Semantic Attendance (SFSA) と SpatialFormer Target Attendance (SFTA) と呼ばれる 2 つのアテンション モジュールを提案します。その中で、SFSA はフィーチャのペア間で同じ意味情報を持つ領域を強調表示し、SFTA は基本カテゴリに類似した新しいフィーチャの潜在的な前景オブジェクト領域を見つけます。

広範な実験により私たちの手法の有効性が実証され、いくつかのベンチマーク データセットで優れたパフォーマンスが達成されました。

15

修正された教師モデルに基づくまばらにラベルが付けられたオブジェクトの検出

調整された教師 

注釈がまばらに付けられたオブジェクトの検出

完全に監視された物体検出では、トレーニング画像内のすべての物体インスタンスにラベルを付ける必要がありますが、これにはラベル付けに多大な人件費が必要であり、ラベル付けに避けられないラベルの欠落がしばしば発生します。画像内の物体が欠けていると、誤解を招く監視と損傷モデルのトレーニングが提供されるため、私たちは、欠けている物体に対して疑似ラベルを生成することでこの問題を軽減する、まばらにラベル付けされた物体検出方法を研究します。

初期のまばらにラベル付けされたターゲット検出方法は、不足しているボックスをフィルタリングするために事前に設定されたスコアしきい値に依存することがよくありましたが、異なるトレーニング段階、異なるターゲット カテゴリ、異なるターゲット検出器では、有効なしきい値は異なります。したがって、固定しきい値を使用する既存の方法には最適化の余地がまだあり、さまざまな検出器に合わせてハイパーパラメーターを調整する手間がかかります。

この障害に対処するために、我々は、予測の信頼度推定値が検出器の実際の精度と一致するようにスコア校正される「校正済み教師モデル」を提案します。したがって、異なる検出器は異なるトレーニング段階で同様の出力信頼度分布を持つため、複数の検出器が同じ固定しきい値を共有し、より良いパフォーマンスを達成できます。

さらに、アノテーションの欠落によって引き起こされる偽陰性オブジェクトの分類損失の重みを削減するための、シンプルだが効果的な FIoU メカニズムを提案します。

広範な実験により、私たちの方法が 12 種類のまばらに注釈が付けられたオブジェクト検出設定の下で最先端のパフォーマンスを達成できることが示されています。

16

大規模な一般的なデータセットに基づく

劣化画像に対する高解像度GAN反転法

高解像度 GAN インバージョン 

劣化したイメージの場合 

大規模で多様なデータセット内

過去数十年にわたり、大規模で多様な画像データの解像度と品質が向上しています。ただし、取得した画像の一部には複数の劣化が発生し、認識や下流のタスクへの適用に影響を与える可能性があります。劣化した画像から高品質の画像を生成する一般的な方法が必要です。この論文では、StyleGAN-XL の反転用の強力な生成機能を活用することで、前述の問題に対処するための新しいフレームワークを提案します。

StyleGAN-XL が反転時に遭遇する課題を軽減するために、クラスター正規反転 (CRI) を提案します。 (1) 巨大で複雑な潜在空間をクラスター化によって複数の部分空間に分割し、初期化のためのより適切な開始点を見つけることを提供します。最適化の難しさを軽減します。(2) GAN ネットワークの潜在空間の特性を利用し、逆変換処理に正則化項によるオフセットを導入し、潜在ベクトルを潜在空間内に拘束することで高画質な画像を生成することができます。

複雑な自然画像の複数の修復タスク (完成、色付け、超解像度) で CRI スキームを検証し、定量的および定性的な結果の両方を達成します。さらに、CRI がさまざまなデータやさまざまな GAN モデルに対して堅牢であることを実証します。

私たちの知る限り、この論文は、StyleGAN-XL を使用して劣化した自然画像から高品質の画像を生成した最初の研究です。

注: 上記のデータは実験室データです。

おすすめ

転載: blog.csdn.net/qq_41050642/article/details/128305126