[コンピュータビジョン | ターゲット検出] arxiv Computer Vision Academic Express on Target Detection (7月26日論文集)

1. 検知関連(7記事)

1.1 過酷な建設条件における個人用保護具の検出

極端な建設条件下での個人用保護具のテスト

https://arxiv.org/abs/2307.13654

ここに画像の説明を挿入
物体検出は、建物の安全管理、特に個人用保護具 (PPE) の検出に広く使用されています。既存の PPE 検出モデルは、従来のデータセットでトレーニングされた優れた結果を達成しますが、極端な建設条件下ではパフォーマンスが大幅に低下します。Neural Style Transfer (NST) と YOLOv 5 技術を組み合わせた、ロバストな検出モデル NST-YOLOv 5 が提案されています。弱い光、強い光、砂、霧、雨などの 5 つの極端な条件が NST モジュールによって考慮およびシミュレーションされ、検出モデルに優れた堅牢性が与えられます。実験結果は、NST が他の従来の画像処理アルゴリズムよりも極端な条件をより適切にシミュレートし、NST-YOLOv 5 が合成と現実世界の極端なデータの両方を達成するのに役立つため、NST が極端なデータ合成ツールとして大きな可能性を持っていることを示しています。0.141 および 0.083 mAP_ 改善されました。 (05:95)。この研究は、極端な建設条件に対してより堅牢な検出モデルを取得するための新しい実現可能な方法を提供します。

1.2 RecursiveDet: エンドツーエンドの領域ベースの再帰的オブジェクト検出

RecursiveDet: エンドツーエンドの領域ベースの再帰的オブジェクト検出

https://arxiv.org/abs/2307.13619

ここに画像の説明を挿入
Sparse R-CNN のようなエンドツーエンドの領域ベースの物体検出器には、通常、以前の結果に基づいて現在の予測を改良する複数のカスケードされたバウンディング ボックス デコード ステージがあります。各段階のモデルパラメータは独立しており、進化コストは膨大です。この論文では、一般的なセットアップのデコード段階が実際には冗長であることがわかります。パラメータを共有し、再帰的デコーダを作成するだけで、検出器は大幅な改善を達成しました。再帰デコーダは提案ボックスの位置エンコード (PE) によってさらに強化でき、入力境界ボックスの正確な位置とサイズを認識できるため、再帰中のさまざまな段階からの提案に適応できるようになります。さらに、境界ボックス内の RoI 特徴要素と動的畳み込みカーネルのさまざまな位置を区別するために、中心ベースの PE も設計します。提案された方法の有効性を検証するために、高密度アブレーションを実行し、最近の主流の領域ベースの検出器の完全なモデルを構築します。RecusiveDet を使用すると、モデル パラメーターが減り、計算コストがわずかに増加するだけで、パフォーマンスが大幅に向上します。コードは https://github.com/bravezzzzzz/RecursiveDet で入手できます。

1.3 再発掘、学習、および理由付け: 言語ガイド付き HOI 検出のためのクロスモーダル意味相関の探索

再マイニング、学習、および推論: 言語ガイドによる HOI 検出のためのチャネル間のセマンティック相関探索

https://arxiv.org/abs/2307.13529

ここに画像の説明を挿入
ヒューマン・オブジェクト・インタラクション (HOI) 検出は、人間とオブジェクトの間の複雑なインタラクション関係を解決し、HOI トリプレットを予測するビジョン モデルを必要とする、コンピュータ ビジョンの難しいタスクです。数多くのインタラクションの組み合わせには課題がありますが、ビジュアル テキストからのマルチモーダルな学習の機会も提供します。この論文では、構造化されたテキスト知識を組み込むことで HOI 検出を改善する体系的かつ統一されたフレームワーク (RmLR) を提案します。まず、2 段階の HOI 検出器でインタラクション情報の損失を定性的および定量的に分析し、より包括的な視覚的表現を生成するための再マイニング戦略を提案します。次に、よりきめの細かい文レベルおよび単語レベルのアライメントと知識伝達を設計します。これらの戦略は、複数のインタラクションと複数のテキスト間の多対多のマッチングに効率的に対処するための戦略であり、複数のインタラクションが同時に発生した場合のマッチングの混乱の問題を軽減し、調整プロセスの有効性を向上させます。最後に、テキスト知識によって強化された視覚的特徴の HOI 推論により、インタラクションの理解が大幅に向上します。実験結果は、私たちの方法が公開ベンチマークの有効性に関して最先端のパフォーマンスを達成することを示しています。さらに、メソッドのさまざまなコンポーネントの影響を分析して、その有効性についての洞察を提供します。

1.4 HeightFormer: 鳥瞰図でのカメラのみの 3D オブジェクト検出のための追加データなしの明示的な高さモデリング

HeightFormer: カメラのみの 3D オブジェクト検出のための鳥瞰画像の追加データなしの明示的な高さモデリング

https://arxiv.org/abs/2307.13510

ここに画像の説明を挿入
ビジョンベースの鳥瞰図 (BEV) 表現は、自動運転のための新たな認識方式です。中心的な課題は、マルチカメラ機能を備えた BEV スペースを構築することですが、これは 1 対多の不適切な問題です。これまでのすべての BEV 表現生成方法を詳しく調べると、そのほとんどが 2 つのタイプに分類されることがわかりました。1 つは画像ビューの深さのモデリング、もう 1 つは BEV 空間の高さのモデリングで、主に暗黙的な方法で行われます。この研究では、BEV 空間で高さを明示的にモデル化することを提案します。これは、LiDAR のような追加データを必要とせず、モデリング深度と比較して任意のカメラ リグやタイプに適応させることができます。理論的には、高さベースの方法と深さベースの方法が同等であることを証明します。身長をモデル化することの同等性といくつかの利点を考慮して、自己再帰的な方法で身長と不確実性をモデル化する HeightFormer を提案します。提案された HeightFormer は、追加データなしで BEV の高さを正確に推定できます。ベンチマーク結果は、HeightFormer がカメラのみの方法と比較して最先端のパフォーマンスを達成していることを示しています。

1.5 オンラインの少数ショット物体検出のための Cos R-CNN

オンラインでの数ショットの物体検出のための CoS R-CNN

https://arxiv.org/abs/2307.13485

ここに画像の説明を挿入
我々は、オンラインの Few-Shot 物体検出用に設計されたシンプルなサンプルベースの R-CNN 定式化である Cos R-CNN を提案します。つまり、微調整することなく、画像内の新しいオブジェクト カテゴリを位置特定して分類できます。R-CNN フレーム検出は学習比較タスクであるため、目に見えないクラスをサンプル画像として表し、これらのサンプルとの類似性に基づいてオブジェクトを検出します。コサインベースの分類ヘッドにより、分類パラメータをサンプル埋め込みに動的に適応させ、距離メトリックのハイパーパラメータを手動で調整することなく、埋め込み空間内の類似クラスのクラスタリングを促進できます。このシンプルな定式化は、最近提案された 5 ウェイ ImageNet 少数ショット検出ベンチマークで最先端の結果を達成し、オンライン 1/5/10 ショット シナリオを 8/3/1% 以上上回り、すべてのショットを上回ります。新しいクラスでは、オンライン 20 チャンネル マイノリティ ショット VOC のパフォーマンスが 20% 向上しました。

1.6 汎用マルチモーダル OOD 検出フレームワーク

一般的なマルチモーダルなオブジェクト指向検出フレームワーク

https://arxiv.org/abs/2307.13069

ここに画像の説明を挿入
分布外 (OOD) 検出は、トレーニング データとは異なるテスト サンプルを特定します。これは、機械学習 (ML) システムの安全性と信頼性を確保するために重要です。単峰性 OOD サンプルを検出するために多数の方法が開発されていますが、多峰性 OOD 検出に焦点を当てた方法はほんのわずかです。対照学習に基づく現在のアプローチは、特定の画像とそれに対応するテキスト記述の両方が新しいドメインから取得される、マルチモーダル OOD 検出に焦点を当てています。しかし、ML システムの実際の導入では、センサーの故障、悪天候、環境の変化などのさまざまな要因によって、さらなる異常事態に直面する可能性があります。したがって、この作業の目標は、複数の異なる OOD シナリオからきめ細かい方法で同時に検出することです。この目標を達成するために、WOOD と呼ばれる一般的な弱教師 OOD 検出フレームワークを提案します。これは、バイナリ分類器と対照学習コンポーネントを組み合わせて、両方の利点を享受します。インディストリビューション (ID) サンプルと OOD サンプルの潜在表現をより適切に区別するために、ヒンジ損失を使用してそれらの類似性を制限します。さらに、2 つのバイナリ分類器からの予測結果を統合し、OOD サンプルを識別する方法を対照的に学習するための新しいスコアリング メトリックを開発します。提案された WOOD モデルを複数の実世界のデータセットで評価したところ、実験結果は、WOOD モデルが最先端のマルチモーダル OOD 検出方法よりも優れていることを示しました。重要なのは、私たちの方法は 3 つの異なる OOD シナリオで同時に高精度の OOD 検出を達成できることです。ソースコードはリリース時に公開されます。

1.7 YOLO を使用した腎臓 H&E および PAS 画像における糸球体検出の調査

腎臓 H&E および PAS 画像で糸球体を検出するための YOLO

https://arxiv.org/abs/2307.13199

ここに画像の説明を挿入
背景: 組織パターンと細胞形態を研究して診断結論を導くには、デジタル病理画像の分析が必要です。ただし、手動による評価は時間と費用がかかり、観察者間および観察者内でばらつきが生じやすい可能性があります。目的: コンピュータ化されたソリューションを使用して病理学者を支援するには、自動組織構造検出とセグメンテーションを提案する必要があります。さらに、病理組織画像に対するピクセルレベルのオブジェクトのアノテーションの生成には、費用と時間がかかります。したがって、境界ボックス ラベルを使用した検出モデルが実行可能なソリューションになる可能性があります。デザイン: この論文のための調査。YOLO-v4 (You-Only-Look-Once)、顕微鏡画像用のリアルタイム物体検出器。YOLO は、単一のニューラル ネットワークを使用して、対象オブジェクトの複数の境界ボックスとクラス確率を予測します。YOLO は、スライド画像全体をトレーニングすることで検出パフォーマンスを向上させることができます。この記事では YOLO-v4 を使用します。人間の腎臓画像における糸球体検出用。2 つの公開データセットとミシガン大学の非公開データセットからのさまざまなトレーニング データに基づいてモデルを微調整するために、複数の実験が設計および実施されました。このモデルは、ヘマトキシリン・エオシン (H&E) と過ヨウ素酸シッフ (PAS) という 2 つの異なる染色の外部検証として、ミシガン大学のプライベート データセットでテストされました。結果: すべての実験の平均的な特異性と感度について、同じデータセットに対する既存のセグメンテーション手法の比較とともに議論します。結論: 最新の AI モデルを使用すると、人間の腎臓画像内の糸球体の自動検出が可能です。さまざまな染色の設計と検証は、依然として公開されている複数染色データセットの変動性に依存しています。

Supongo que te gusta

Origin blog.csdn.net/wzk4869/article/details/131992863
Recomendado
Clasificación