【コンピュータビジョン | ターゲット検出】arxiv Computer Vision Academic Express on Target Detection (9月15日論文集)

1. 検知関連(6記事)

1.1 ALWOD: 弱教師オブジェクト検出のためのアクティブラーニング

ALWOD: 弱教師オブジェクト検出のための能動学習

https://arxiv.org/abs/2309.07914

ここに画像の説明を挿入します
物体検出 (OD) は重要な視覚タスクですが、正確な物体位置特定ラベルを備えた大規模なトレーニング データセットが不足しているため、依然として課題に直面しています。この研究では、アクティブ ラーニング (AL) と弱教師ありおよび半教師ありの物体検出パラダイムを融合することで、この問題に対処する新しいフレームワークである ALWOD を提案します。AL のパフォーマンスはモデルの初期化に大きく依存するため、ウォームスタート AL として、非常に小さなラベルのセットと弱いラベルが付けられた画像の大規模なセットを組み合わせた補助画像ジェネレーターの新しい戦略を提案します。次に、AL 成功のもう 1 つの重要な要素である新しい AL 取得機能を提案します。これは、学生と教師の OD ペアの不一致と不確実性を利用して、最も有益な画像アノテーションを効果的に考え出すものです。最後に、AL ループを完了するために、モデルによって提案された検出の選択と修正に基づいて、人間のアノテーターに委任された新しいラベル付けタスクを導入します。これは、有益な画像のラベル付けに高速かつ効率的です。我々は、いくつかの挑戦的なベンチマークで、ALWOD が、部分的にラベル付けされているが戦略的に選択された少数の画像インスタンスでトレーニングされた OD と、完全にラベル付けされたデータに依存する OD との間のギャップを大幅に縮小することを実証しました。私たちのコードは https://github.com/seqam-lab/ALWOD で公開されています。

1.2 mEBAL2 データベースとベンチマーク: 画像ベースのマルチスペクトルまばたき検出

MEBAL2 データベースとベンチマーク: 画像ベースのマルチスペクトルまばたき検出

https://arxiv.org/abs/2309.07880

ここに画像の説明を挿入します
この研究では、新しいマルチスペクトル データベースと、RGB および近赤外線 (NIR) の個々の画像における瞬き検出のための新しい方法が導入されています。私たちが提供するデータセット (mEBAL 2、マルチモーダル瞬目および注意レベル推定、バージョン 2) は、既存の最大の瞬きデータベースであり、瞬き検出および関連アプリケーション (注意レベルの推定やプレゼンテーションなど) のためのデータ駆動型マルチスペクトル手法を改善する絶好の機会となります。顔の生体認証による攻撃検出)。mEBAL 2 には、さまざまな難易度の多数の e ラーニング タスク、または edX MOOC プラットフォームを介した HTML 初期化を伴う実際のコースを受講している間、180 人の異なる学生からの 21,100 枚の画像シーケンス (合計 200 万枚以上のラベル付き画像) が含まれています。mEBAL 2 は、タスク実行中の顔のジェスチャーをキャプチャする 2 台の近赤外線 (NIR) カメラと 1 台の RGB カメラ、およびユーザーの認知活動と瞬きイベントをキャプチャする脳波 (EEG) バンドを含む複数のセンサーを使用します。さらに、この研究では、最大 97% のパフォーマンスを備えた mEBAL 2 フリッカー検出のベンチマークとして畳み込みニューラル ネットワーク アーキテクチャを提案しています。既存のまばたき検出器のパフォーマンスを向上させるために、RGB スペクトル、NIR スペクトル、および両方の組み合わせを使用してさまざまなトレーニング方法が実装されています。トレーニング中に NIR 画像と RGB 画像を組み合わせると、RGB まばたき検出器 (つまり、RGB 画像のみに基づく検出) のパフォーマンスが向上することを実証します。最後に、提案されたまばたき検出器の一般化能力が、HUST-LEBW データセットなどのよりワイルドでより困難な環境で検証され、新世代のデータ駆動型まばたき検出方法に対する mEAL 2 トレーニングの有用性が示されます。

1.3 意味レベルのコンセンサスの抽出と分散による共顕著オブジェクトの検出

意味レベルのコンセンサスの抽出と分散に基づく共通顕著ターゲットの検出

https://arxiv.org/abs/2309.07753

ここに画像の説明を挿入します
一連の画像が与えられた場合、共通顕著オブジェクト検出 (CoSOD) は、各画像内の共通顕著オブジェクトを強調表示することを目的としています。このタスクの成功には、各画像のコンセンサス抽出とコンセンサス分散という 2 つの要素が密接に関係しています。これまでの研究のほとんどは、ローカル特徴を使用してグループの合意を表現していましたが、私たちは階層的な Transformer モジュールを使用して意味レベルの合意を抽出しました。したがって、共通のオブジェクト カテゴリのより包括的な表現を取得し、ターゲット オブジェクトと局所的な類似性を共有する他のオブジェクトからの干渉を排除できます。さらに、さまざまなシナリオにおける共突出物体の変化を考慮した、変圧器ベースの分散モジュールを提案します。グループ内の対話を最大限に活用しながら、画像固有の方法で画像特徴マップにコンセンサスを配布します。これら 2 つのモジュールは ViT エンコーダおよび FPN のようなデコーダと統合されており、余分な分岐や補助損失のないエンドツーエンドのトレーニング可能なネットワークを形成します。このメソッドは、一般的に使用される 3 つの CoSOD データセットで評価され、最先端のパフォーマンスを実現します。

1.4 潜在領域背景特徴の分離と抑制に基づく道路疾患の検出

潜在ドメイン背景特徴の分離と抑制に基づく道路疾患の検出

https://arxiv.org/abs/2309.07616

ここに画像の説明を挿入します
道路疾病の検出は、対象地域内の道路被害の割合が小さく、背景が多様で、大量のドメイン情報が導入され、疾病カテゴリの類似性が高いため、検出がより困難であるため、困難です。この論文は、ドメイン監視やコントラスト強調ターゲット特徴を必要とせずに背景情報を分離および抑制できる新しい LDBFSS (潜在ドメイン背景特徴分離および抑制) ネットワークを提案します。また、LDBFSS ネットワークと YOLOv5 モデルを組み合わせて、疾患シグネチャを強化して改善します。道路疾患の発見。LDBFSS ネットワークのコンポーネントとして、まず、潜在的なドメイン発見モジュールとドメイン敵対的学習モジュールを設計しました。これは、教師なしの方法で擬似ドメイン ラベルを取得し、ドメイン弁別器とモデル敵対的トレーニングをガイドし、背景情報を抑制します。さらに、この論文では、対比学習モジュールも導入し、オブジェクト特徴のクラス間距離を増加し、オブジェクト特徴のクラス内距離を短縮することによって疾患特徴の表現を最適化する k インスタンスのコントラスト損失を設計します。GRDDC と CNRDD の 2 つの道路疾病検出データセットを使用して実験を行い、他のモデルと比較した結果、最適モデルと比較して、GRDDC データセットの検出結果は 4% 近く向上し、CNRDD データセットの検出結果は向上したことがわかりました。セットでの検出結果は 4.6% 増加しました。実験結果は、モデルの有効性と優位性を示しています。

1.5 IoT 環境における未知の攻撃の検出: 強化されたネットワーク侵入検出のためのオープンセット分類子

IoT 環境における未知の攻撃の検出: 強化されたネットワーク侵入検出のためのオープンセット分類子

https://arxiv.org/abs/2309.07461

ここに画像の説明を挿入します
モノのインターネット (IoT) デバイスが生活のあらゆる側面に広く統合されたことで、コネクテッド時代が到来し、サイバーセキュリティの課題に対する新たな道が生まれ、堅牢な侵入検知システムの必要性が強調されています。しかし、従来のセキュリティ システムは閉じた世界の観点から設計されており、新しく未知の攻撃が次々と出現する、絶えず変化する脅威環境に対処する際に課題に直面することがよくあります。このペーパーでは、IoT 環境に合わせて調整されたネットワーク侵入検知システム (NIDS) の領域におけるオープン セット認識 (OSR) の問題を軽減するように設計されたフレームワークを紹介します。私たちのフレームワークは、パケットレベルのデータの画像ベースの表現を利用して、ネットワークトラフィックから空間的および時間的パターンを抽出します。さらに、スタッキング技術とサブクラスタリング技術を統合し、無害な動作の複雑さと多様性を効果的にモデル化することで未知の攻撃の識別を可能にします。実証結果は、このフレームワークの有効性を強調しており、既存の手法や最近の進歩と比較して、これまで見たことのない攻撃に対して 88% という驚異的な検出率を達成しています。今後の作業では、IoT 環境の保護における当社の提案ソリューションの適応性とパフォーマンスをさらに強化するために、さまざまなオープン レベルと攻撃シナリオで広範な実験を実施します。

1.6 RGB-T顕著性検出のためのマルチモーダルハイブリッド学習と逐次トレーニング

マルチモーダルハイブリッド学習と逐次トレーニングに基づく RGB-T 顕著性検出

https://arxiv.org/abs/2309.07297

ここに画像の説明を挿入します
RGB-T 顕著性検出は、暗い環境などの困難なシーンで明白なオブジェクトを識別するための重要なコンピューター ビジョン タスクとなっています。ただし、既存の方法はクロスモーダル機能の特性を無視し、ネットワーク構造にのみ依存して RGB 機能と熱機能を融合します。この問題を解決するために、まず、教師あり損失関数と自己教師あり損失関数を含むマルチモーダル ハイブリッド損失 (MMHL) を提案します。MMHL の教師あり損失コンポーネントは、さまざまなモダリティからのセマンティック特徴を明らかに利用していますが、自己教師あり損失コンポーネントは、RGB 特徴と熱特徴の間の距離を縮めます。空間情報とチャネル情報の機能的融合をさらに検討し、RGB 機能と熱機能を効果的に融合するハイブリッド融合モジュールを提案します。最後に、クロスモーダル特徴を使用してネットワークを共同トレーニングする代わりに、第 1 段階で RGB 画像のトレーニングのみを実行し、第 2 段階でクロスモーダル特徴を学習する逐次トレーニング戦略を実装しました。このトレーニング戦略により、計算オーバーヘッドなしで顕著性検出のパフォーマンスが向上します。性能評価とアブレーション研究の結果、提案された方法が既存の最先端の方法と比較して優れた性能を達成することが示されています。

Acho que você gosta

Origin blog.csdn.net/wzk4869/article/details/132914652
Recomendado
Clasificación