【コンピュータビジョン | 画像分類】arxiv Computer Vision 画像分類に関する学術エクスプレス(12月5日論文集)(前編)

1. 分類|識別関連(14件)

1.1 次のトークン予測としてのオブジェクト認識

次世代コイン予測としての物体認識

https://arxiv.org/abs/2312.02142

我々は次トークン予測としてジェスチャオブジェクト認識手法を提案する。このアイデアは、画像の埋め込みからテキスト トークンを自動的かつ回帰的に予測してラベルを形成する言語デコーダーを適用することです。自己回帰でこの予測プロセスを構築するために、デコーダ用に非因果的アテンション マスクを調整します。これには 2 つの重要な機能が含まれています。それは、異なるラベルからのタグを独立したものとしてモデル化することと、イメージ タグをプレフィックスとして扱うことです。このマスキング メカニズムにより、複数のラベルのタグを並行して同時にサンプリングし、推論中に生成されたラベルを確率によってランク付けする効率的な方法 (シングルショット サンプリング) が実行されます。効率をさらに向上させるために、事前トレーニングされた言語モデルの中間ブロックを単純に破棄してコンパクトなデコーダを構築する簡単な戦略を提案します。このアプローチにより、完全なモデルのパフォーマンスに匹敵するデコーダが生成され、同時に大幅に効率が向上します。コードは https://github.com/kaiyuyue/nxtp で入手できます。

1.2 野外での顔認識に効果的なアダプター

実用的な効果的な顔認識アダプター

https://arxiv.org/abs/2312.01734

この論文では、画像が低品質で現実世界の歪みに悩まされることが多い、実際の顔認識の課題に取り組みます。これらの劣化した画像上でモデルを直接トレーニングするか、顔復元技術を使用して強化した対応物をトレーニングする従来のヒューリスティックなアプローチは、主に顔の特徴の劣化と画像領域の違いにより効果がないことが証明されています。これらの問題を克服するために、高品質の顔データセットでトレーニングされた既存の顔認識モデルを強化するための効率的なアダプターを提案します。私たちのアダプターの鍵は、2 つの類似した構造 (1 つは固定で、もう 1 つはトレーニング可能) を通じて、未精製の画像と強化された画像の両方を処理できることです。この設計には 2 つの利点があります。まず、デュアル入力システムは、顔認識モデルにさまざまな視点を提供しながらドメイン ギャップを最小限に抑えます。強化された画像は、復元モデルによって元の画像の複雑な非線形変換として表示されます。第 2 に、両方の同様の構造は、過去の知識を失うことなく、事前トレーニングされたモデルによって初期化できます。ゼロショット設定での広範な実験により、私たちの方法は 3 つのデータセットでベースラインよりも約 3%、4%、および 7% 優れていることがわかりました。私たちのコードは https://github.com/liuyunhaozz/FaceAdapter/ で公開されます。

1.3 RiskBench: リスク特定のためのシナリオベースのベンチマーク

RiskBtch: シナリオベースのリスク識別ベンチマーク

https://arxiv.org/abs/2312.01659

インテリジェント運転システムは、衝突ゼロのモビリティ体験を実現することを目指しており、安全性能を向上させるために学際的な取り組みが必要です。この作業は、リスクの特定、つまり動的な交通関係者や緊急事態からのリスクを特定および分析するプロセスに焦点を当てています。コミュニティは大きな進歩を遂げましたが、さまざまなリスク識別アルゴリズムの現在の評価では独立したデータセットが使用されているため、直接比較することが困難であり、セキュリティ パフォーマンスの向上における集団的な進歩が妨げられています。この制限に対処するために、リスク特定のための大規模な ARIO ベースのベンチマークである \textbf{RiskBench} を導入します。さまざまなシナリオの下でグラウンド トゥルース リスクを体系的に収集するために、シナリオの分類と強化のパイプラインを設計します。私たちは 10 個のアルゴリズムを、(1) リスクの検出と特定、(2) リスクの予測、(3) 意思決定の促進の能力について評価しました。私たちは広範な実験を実施し、将来の研究リスクを特定して結論を​​導き出します。私たちの目標は、衝突のない社会の実現に向けた協力的な取り組みを促進することです。データセットとベンチマーク ツールキットをプロジェクト ページで公開しました: https://hcis-lab.github.io/RiskBench/

1.4 TextAug: マルチモーダル人物再識別のためのテキスト拡張の​​テスト時間

TextAug: マルチパス人物再識別のためのテスト時のテキスト拡張

https://arxiv.org/abs/2312.01605

マルチモーダルな人物再識別は、対応する単モーダルなフレームワークと比較して有効であるため、研究コミュニティで人気が高まっています。ただし、マルチモーダル深層学習のボトルネックは、多数のマルチモーダル トレーニング サンプルが必要なことです。トリミング、反転、回転などのデータ拡張技術は、深層学習モデルの汎化能力を向上させるために画像分野でよく使用されます。テキストなどの画像以外の形式の強化は困難であり、大量の計算リソースと外部データ ソースが必要です。この研究では、マルチモーダル人物再識別におけるテキスト強化のための 2 つのコンピュータ ビジョン データ強化技術 (シャーリングとシャーリング ブレンディング) の有効性を調査します。私たちのアプローチでは、これら 2 つの拡張戦略を CutMixOut と呼ばれる戦略に統合します。この戦略では、文から単語またはサブフレーズをランダムに削除する (Cutout) ことと、2 つ以上の文の一部を混合して異なる例を作成する (CutMix) ことが含まれ、各操作には特定の確率が割り当てられます。この機能強化は、事前のトレーニングなしで推論時に実装されます。私たちの結果は、提案された手法がシンプルでありながら、マルチモーダル人物再識別ベンチマークのパフォーマンスを向上させるのに効果的であることを示しています。

1.5 D 2 ^2 2ST アダプター: 数ショットのアクション認識のための、もつれを解いて変形可能な時空間アダプター

D 2 ^2 2ST アダプター: フューショット アクション認識用のアンラップされた変形可能な時空アダプター

https://arxiv.org/abs/2312.01431

大規模な事前トレーニング済み画像モデルを Few-Shot アクション認識に適応させることは、Few-Shot 学習に不可欠な堅牢な特徴抽出器を学習するための効果的かつ効率的な戦略であることが証明されています。一般的な微調整ベースの適応パラダイムは、Few-Shot 学習シナリオで過剰適合する傾向があり、ビデオ データの時間的特徴を学習するためのモデリングの柔軟性がほとんどありません。この研究では、時空アダプター (D 2 ^2 ) を解明して変形することを提案します。2ST アダプタ)は、Few-Shot アクション認識のフレームワークに適応した新しいアダプタで、デュアル チャネル アーキテクチャで設計され、空間関数と時間関数を 1 つにエンコードします。解き明かす方法。さらに、変形した時空間注意モジュールを D 2 ^2 2ST アダプターのコア コンポーネント。対応するパスの空間的および時間的特徴をモデル化するようにカスタマイズでき、D 2 ^ 2 2ST アダプタは、軽量設計を維持しながら、3D 時空間のグローバル ビューでフィーチャをエンコードできます。事前トレーニングされた ResNet および ViT での私たちのメソッドに関する広範なインスタンス化実験により、私たちのメソッドが Few-Shot アクション認識において最先端のメソッドよりも優れていることが実証されました。私たちの方法は、時間的ダイナミクスが行動認識にとって重要である困難なシナリオに特に適しています。

1.6 DiFace: 制御された拡散によるクロスモーダル顔認識

DiFace: 制御された拡散によるクロスモーダル顔認識

https://arxiv.org/abs/2312.01367

拡散確率モデル (DPM) は、優れた品質とリアリズムを備えたビジュアル メディアを生成する際に優れた能力を実証しています。それにもかかわらず、顔認識などの非生成領域におけるその可能性は、まだ徹底的に調査されていません。一方、マルチモーダルな顔認識方法は広く開発されていますが、それらは主に視覚モダリティに焦点を当てています。この文脈において、テキスト記述による顔認識は、応用シナリオの制限を超えるだけでなく、クロスモーダル顔認識の分野における研究の可能性を拡大する、ユニークで有望なソリューションを提供します。悲しいことに、この道は主に 3 つの課題により、未開拓かつ十分に活用されていません: 1) テキスト記述に固有の不正確さ、2) テキストと画像の間にある大きなギャップ、3) 不十分なデータベースによってもたらされる大きな障害。この問題を解決するために、確率的送信との理論的関係を確立することにより、制御可能な拡散プロセスを通じてテキストからの顔認識を効果的に可能にするソリューションである DiFace を提案します。私たちのアプローチは、より広範囲のタスクにわたって DPM の可能性を解き放つだけでなく、私たちの知る限りでは、検証と認識の両方に関する実験で実証されたように、テキストから画像への顔認識において初めて大幅な精度を達成しました。 。

1.7 データ拡張技術を使用したマスク被覆下での顔の感情認識

データ強化技術に基づくマスク下の顔の感情認識

https://arxiv.org/abs/2312.01335

人工知能ベースのコンピューター ビジョン システムを使用して、個人がマスクを着用しているときに人間の感情を認識することは、現在の新型コロナウイルス感染症のパンデミックにおいて新たな課題となっています。本研究では、異なるマスクを着用している個人の感情を識別できる顔感情認識システムを提案します。モデルのパフォーマンスを向上させるために、顔画像ごとに 4 つのマスク タイプを使用する新しいデータ拡張技術が使用されています。転移学習を使用して訓練された 4 つの畳み込みニューラル ネットワーク Alexnet、Squeezenet、Resnet50、および VGGFace2 の有効性を評価します。実験結果は、私たちのモデルがシングルマスク モードと比較してマルチマスク モードで効果的に動作することを示しています。 JAFFE データセットを使用した VGGFace2 ネットワークは、人間依存モードで 97.82%、人間非依存モードで 74.21% という最高の精度を達成しました。ただし、提案したモデルは UIBVFED データセットを使用して評価します。 Resnet50 は優れたパフォーマンスを示し、人物依存モードでは 73.68%、人物非依存モードでは 59.57% の精度を示します。さらに、精度、感度、特異性、AUC、F1 スコア、混同行列などの指標を使用して、システムの効率を詳細に測定します。さらに、CNN の意思決定戦略を視覚化するために LIME アルゴリズムが使用されます。

おすすめ

転載: blog.csdn.net/wzk4869/article/details/134814635