CVPR 2022 |新しいコールアウトフォーマット!国立科学技術大学はCPLを提案しました:1つの厚い点だけを持つマルチカテゴリマルチスケールターゲットローカリゼーションタスク...

下のカードをクリックして、「 CVer」パブリックアカウントをフォローしてください

AI / CVの重い乾物、できるだけ早く配達

ラベルにこれほど多くのボックスが必要なのはなぜですか?研究者は自由にマークを付けることができます!

CVPR 2022に含まれる最新の論文では、粗い点の最適化の新しいアイデアが提供されています。これは、正確な点のラベル付けから任意の粗い点のラベル付けまで、マルチカテゴリおよびマルチスケールのローカリゼーションの問題を一般化します。意味の違い。

559bda4f1202686d8d297929d7297e50.png

e8ab08ef104947671fa6678ca9293c2a.png

図1:CPRの視覚化ラベル付けされたポイント(緑)のサンプリングポイントに従って、セマンティックポイント(赤)がインスタンスレベルのMILによって選択され、重みが平均化されてセマンティック中心点(黄色)が取得されます。最終的な改善点。

低コストのデータ注釈の下で高性能の物体知覚を追求するポイントベースの物体位置特定(POL)タスクは、ますます注目を集めています。ただし、ポイントのラベル付けモードでは、ポイントのラベル付けに一貫性がないため、必然的にセマンティック分散が発生します。既存のPOLメソッドは、定義が難しい正確なキーポイントアノテーションに大きく依存しています。

この論文は、正確なキーポイントから自由に注釈が付けられたポイントまで監視情報を緩和するために、粗いポイント注釈を使用するPOL方法を提案します。このためのCoarsePointRefinement(CPR)法を提案します。これは、意味分散を緩和する最初のアルゴリズムです。

具体的には、CPRはポイントバッグを作成し、複数インスタンス学習(MIL)を通じて意味的に関連するポイントを選択し、意味的な中心点を生成します。このように、CPRは、粗いポイントの監視下で高性能オブジェクトロケーターのトレーニングを可能にする、弱く監視された自己修正プロセスを定義します。研究者によって提案されたCOCO、DOTA、およびSeaPersonデータセットに関する実験結果は、CPR法の有効性を検証します。

単一の粗点監視下でのオブジェクトのローカリゼーション

論文:https://arxiv.org/abs/2203.09338

コード:https://github.com/ucas-vg/PointTinyBenchmark

TinyPerson V2(SeaPerson)データセット:vision.ucas.ac.cn/sources(TinyPersonの拡張バージョン、約700,000の小さなターゲットサンプル)

1はじめに

多くの実際のアプリケーションシナリオでは、研究者はオブジェクトのサイズに注意を払うことなく、オブジェクトの正確な位置を取得するだけで済みます(たとえば、ロボットアームはターゲットを拾うポイントに向けられます)。過度の注釈(バウンディングボックス、マスクなど)は冗長で望ましくないため、ポイント監視オブジェクトローカリゼーション(POL)タスクが表示されます。ますます注目を集めているのは、シンプルで時間の節約になるポイントラベリングです。このようなタスクは、ポイントレベルの注釈でトレーニングされ、オブジェクトの場所を表すために元の画像の2D座標を予測します。

fb7a9b27114bb87f82ee12f723187e70.png

図2:ポイントラベリングによって引き起こされる意味のあいまいさ

POLタスクの詳細な分析を通じて、研究者は、オブジェクトがピクセルとして表される場合、複数の候補ピクセルが存在する必要があることを発見しました。これは、POLの意味のあいまいさ(意味の分散)の問題です。セマンティック情報はポジティブとしてマークされる場合があります。データセット全体で、同様のセマンティクスの領域は異なる方法でマークされる場合があります。図2を例にとると、両方とも鳥に属する2つのオブジェクトがあり、1つは首にマークされ、もう1つは尾にマークされています。ネットワークのトレーニング中、1つの画像は首の領域を肯定的な例として扱い、もう1つの画像(尾に注釈が付けられた画像)を否定的な例として扱います。この現象は意味のあいまいさであり、トレーニングされたモデルのパフォーマンスが低下します。

05e2121c2025886832a7fa4d5322ad54.png

図3:キーポイントのラベル付けに基づく問題。

現在のPOL作業のほとんどは、厳密なラベル付けルールを策定し、事前に指定された領域内でのみラベル付けするようにラベラーを制限することにより、セマンティック分散の問題に対処しています。これには、次の課題があります(図3)。特定の形状のない定義された広いカテゴリ;(2)オブジェクトのポーズや撮影の視点が異なるため、画像にキーポイントが存在しない場合があります;(3)オブジェクトのスケール範囲が大きく異なる場合、適切なキーポイントを指定することは困難です。これにより、ラベリングの難しさと労力が大幅に増加します。マルチクラス、マルチスケールのデータセット(COCO、DOTAなど)でのPOLタスクの調査を制限するのは、これらの問題です。

この論文では、より一般的なPOLローカライザーをトレーニングできる粗点ベースのマルチクラス、マルチスケールローカリゼーション(CPL)パラダイムを提案します(図4)。まず、粗いポイントのラベル付け戦略を使用してデータセットを作成し、オブジェクト内のすべてのピクセルにラベルを付けることができます。次に、Coarse Point Refinement(CPR)アルゴリズムを使用して、トレーニングセットのセマンティックセンターへの初期粗点を最適化します。最後に、ローカライザーをトレーニングするための監視として、ラベル付けされたポイントをセマンティックセンターポイントに置き換えます。セマンティック中心点は、セマンティック分散が小さく、予測エラー許容度が高くなります。

研究者は、POLタスクを深く研究し、粗点局在化(CPL)に基づく新しいパラダイムを設計して、POLタスクをマルチクラスおよびマルチスケールに拡張します。アルゴリズムの観点から粗点最適化(CPR)法を提案します。厳密なラベリングルールよりも意味の違いを軽減します。MSCOCOとDOTAの実験結果は、CPRがCPLに有効であり、中心点(近似キーポイント)POLと同等のパフォーマンスを取得し、パフォーマンスがベースラインを10以上超えることを示しています。ポイント;この論文はまた、オープンソースのSeaPersonの新しいデータセットです。600,000を超えるインスタンスがあり、弱者の検出に使用できます。

2.方法

単一の粗い点の注釈に対する粗い点の精密化(CPR)法は、前処理プロセスと見なすことができます。トレーニングセットのデータ注釈を、後続のタスク用の新しい、より導電性の高い注釈に変換します。CPRの主な目的は、セマンティック分散が小さく、予測エラー許容度が高いセマンティックポイントを見つけ、このセマンティックポイントを使用して最初の注釈ポイントを置き換えることです。図5に示すように、CPRには3つの重要なステップがあります。1。ポイントサンプリング:ポイントサンプリングは、最初にラベル付けされた各ポイントの近くで実行されます。2. CPRNetトレーニング:分類ネットワーク(CPRNet)をトレーニングして、サンプリングポイントが最初の注釈ポイントと同じカテゴリに属しているかどうかを分類します。3.ラフポイントの修正:訓練されたCPRNetと制約に従って、最初の注釈ポイントのセマンティック情報に類似するポイントをセマンティックポイントセットとして選択し、ポイントセット内のポイントの加重和を実行してセマンティクスを取得します。注釈点に対応します。中心点。

a64977f3f9e3983297d1ae7f5804a8f0.png

図4太い点でマークされた補正と最適化の方法のフレーム図。

2.1サンプリングポイント

38cfb1222313cebcb3b7ade07952e848.png

1e8fc492fb279437a6a2ae03c9da4544.png

b4a352e22c4b916bf0d7b4f9e474d25e.png

図5.太い点の注釈の修正方法図。(緑の点はマークされたポイント、赤のドットは同様のセマンティックポイント、黄色のドットはセマンティックの中心点です)

2.2CPRNetのトレーニング

f1f3b6a863f6fe16f9bf16699fc7f789.png

a392330b2dd013b399dcbab4b7ba4ba1.png

2.3ラフポイントの修正

トレーニングされたCPRNetを介して、最初の注釈ポイントと同じカテゴリ(同様のセマンティクス)を持つポイントが選択され、ポジティブな例のポイントのセットとして記録され74aa98524b49ae93f96ee918606f39b7.pngます。7016accceef473b259cf22db292327de.png注釈点を置き換えるために使用される意味中心点は、インライアの加重平均を計算することによって取得されます。

より良い例のセットを取得するために0eac81792d17f2954bee98b4bbd37c5c.png、3つの制約がさらに定義されます。1)しきい値を設定することにより、セット内のスコアが低いセマンティックポイントが削除されます。2)分類が正しくないポイントが削除されます。これは、分類スコアSp、k、jが他のカテゴリのポイントのスコアよりも大きいことを意味します。3)2つの近接ポイントは交差する近隣を生成するため、同じカテゴリに属する​​他のターゲット近隣のポイントは削除されます。上記の3つの制約に基づいて、残りのポイントがセットを構成し1e1710d0b3d23783e23e584a20e0a111.png、重み付けされた合計がセマンティック中心ポイントを取得します(図1を参照)。これは、弱いターゲットと小さなターゲットの検出のために後続の軽量ネットワークをトレーニングするために使用されます。

3.実験

3.1メソッドの比較

マルチクラスP2PNet。研究者は、P2PNetを使用してポイント注釈をトレーニングし、各オブジェクトを高いベンチマーク要件として予測します。結果を明らかに改善できるいくつかの方法があります。1。P2PNetのバックボーンネットワークは、このペーパーではVGG16ではなくResnet50です。2。損失関数としてクロスエントロピー損失ではなく焦点損失を使用します。3、Smooth-回帰としてのL2損失関数の代わりにl1関数。4.ラベルを照合するときは、1対1の照合ではなく、top-kの正の照合を使用します。予測されたポイントでNMSを使用して、最終的なポイントスコアを取得します。P2PNetの結果は表1の2行目にあり、最初の行の結果と比較して大幅に改善されています。

CPR。自己最適化と比較して、CPR(表1の5行目)戦略はP2PNetのパフォーマンスを向上させ、CPRが意味のあいまいさをより効率的に処理できることを示しています。セマンティックディファレンスを定量化するために、相対セマンティックディファレンス(RSV)は次のように定義されます。

7819514a3b6c09ea12f669f705f0e823.png

a6a4fe48ac17ef0a46fb8863be0de20b.png

図6左上と右上のグラフは、相対的な位置分布(自己最適化とCPR)を示しています。中央の表は、CPRトレーニング中のRSV値の変化です。次の4つの図は、トレーニングプロセス中の最適化されたポイントの位置の変化を示しています。

結果分析。疑似ボックスベースのロケーターは、分類器のトレーニングとほぼ同等です(ラベル付けされたポイントの近くのポイントはすべて肯定的な例であり、他のポイントは否定的な例です)。一般分類器は、バウンディングボックスのサイズ情報と密接に関連するIoUによって各カテゴリを判断します。ただし、ポイントアノテーションから正確なバウンディングボックスを取得できないため、疑似ボックスアノテーションメソッドのパフォーマンスが低下します。P2PNetは、ハンガリーのアルゴリズムを使用して、より優れたポイントツーポイント分類割り当てを実現し、より優れた結果をもたらします。ただし、P2PNetは、データセットのラベル付けされたポイントのセマンティック情報に非常に敏感です。ポイント最適化戦略は、セマンティックのあいまいさを効果的に減らし、より良い結果をもたらします。

ecdb5837afc53bdc08116e454569819c.png

表1:メソッドの有効性は、COCO、DOTA、およびSeaPersonデータセット、単位:mAPで検証されます。

3.2アブレーション実験

CPRの有効性と堅牢性をよりよく分析するために、研究者は多数の実験を実施しました。

abcf9e31754191b4a610e9457e637373.png

表2:CPRNetでのトレーニング損失の有効性:MIL損失、注釈損失、負の損失。位置損失は比較に使用されます。(1は損失の使用を表します)、単位:mAP

CPRNetのトレーニング損失アブレーション実験の結果を表2に示します。CPRNetの最適な設定は6行目で、55.46mAPに達します。1.MIL損失。この損失がなければ、結果は3.64パーセントポイント低下します。代わりにposlossを使用すると、結果は12.74パーセントポイント低下します(5行目)。MILは候補点が属するオブジェクトを自動的に分類できることが示されています。2.注釈の損失。その損失がなければ、結果は1.22パーセント減少しました。この損失により、逸脱することなく、適切に監視されたトレーニングに向けてトレーニングが継続されます。3.負の損失。この損失(行2)を使用すると、16.01パーセントポイントの改善が得られます。これは、MIL損失が負の損失を抑制するのに十分ではなく、追加のバックグラウンドクラスが負の損失を抑制するのに有益であることを示しています。

 
  

ICCVおよびCVPR2021ペーパーおよびコードのダウンロード

舞台裏の返信:CVPR2021、 CVPR2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:ICCV2021、 ICCV2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:トランスフォーマーレビュー、最新の3つのトランスフォーマーレビューPDFをダウンロードできます

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-Transformer或者目标检测 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

おすすめ

転載: blog.csdn.net/amusi1994/article/details/124071579