Ada が提案した: 新しいオーディオビジュアルセグメンテーション合成データセットと音像セグメンテーションのための新しいネットワーク

下のカードをクリックしてCVer」公式アカウントをフォローしてください

AI/CV 重量物乾物、初めて納品

クリックして入力 —> [画像の分割と変換] Exchange グループ

この論文は、AVS 問題をより効果的に検証し、音声と画像の関連性を効果的に改善するための、オーディオビジュアル セグメンテーション (AVS) 問題に対する、より効率的な合成データ セット VPO とピクセル レベルの対比学習トレーニング戦略を提案します。 、サリー大学。

2ad0766babbdd2bae43ac748d10e2187.png

オーディオビジュアルセマンティックセグメンテーションの詳細

記事リンク: https://arxiv.org/abs/2304.02970

オーディオビジュアル セグメンテーション タスク (オーディオビジュアル セグメンテーション [AVS]) は、主に音声信号と画像をピクセル レベルで照合することです視聴覚学習を成功させるには、2 つの基本コンポーネントが必要です。1) 高品質のピクセル レベルのマルチクラス ラベルを備えた不偏データセット、2) 音声情報を対応する視覚オブジェクトと効率的にリンクできるモデル。ただし、現在のアプローチはこれら 2 つの要件に部分的にしか対応していません。私たちは検証を通じて、既存のモデルが視覚信号と音響信号の相関関係を効果的に学習していないことを発見しました。たとえば、以下の例では、音の信号は変化していますが、モデルの予測は変化していません。この現象に基づいて、1) データセットの隠れたルール (特定のシーンでは常に特定のオブジェクトが発生源となる) がモデルの一般化に影響を与えているのではないかと考えられます。2) モデルは、ビデオ内で移動オブジェクトと発生オブジェクトとの間の関連性を確立する傾向が高くなります。さらに、オーディオビジュアルセグメンテーション問題では、モデルのトレーニングに大量のラベル付きデータが必要であり、選択的なラベリングのためにラベラーがラベリング中に音声を監視する必要があることを考慮すると、ラベリングの時間コストは比較的大きくなります。上記の問題に対応するため、実験により、画像 (COCO) と音声をマッチングして、画像の視覚オブジェクトの意味カテゴリに従って音声およびビデオ データ (VGGSound) を取得できることを発見しました。 、そしてこの離散的な音響と視覚のペアリングはオブジェクトの動きの情報を除外することができます。さらに、このサウンドとイメージのペアリング方法を再度使用して、教師あり対比学習用のより豊富な正と負のセットを提供し、表現パフォーマンスとモデルのパフォーマンスを向上させます。

79c7110aab2901c42e84f737dac33653.png

主な貢献

  • コスト効率が高く比較的公平なセマンティック セグメンテーション ベンチマークを構築するための新しい戦略は、ビジュアル ポストプロダクション (VPO) と呼ばれます。VPO ベンチマークは、画像のビジュアル オブジェクトのセマンティック クラスに基づいて、画像 (COCO から) と音声 (VGGSound から) をペアにします。この戦略に基づいて、単一音源 (VPO-SS) と複数音源 (VPO-MS) という 2 つの新しい VPO ベンチマークを提案します。

  • AVSBench-Single+ と呼ばれるベンチマーク AVSBench-Single の拡張機能。これは、元の画像解像度を復元し、マルチクラス アノテーションを備えたセマンティック セグメンテーション マスクを表します。

  • 新しいAVS方式新しい目的関数 CAVP を使用してトレーニングされ、オーディオとビジュアルのペアをランダムに照合して豊富な「ポジティブ」と「ネガティブ」の対照的なペアを形成し、オーディオビジュアルの埋め込みの学習をより適切に制限します。

視聴覚セグメンテーション 合成データセット ビジュアル ポストプロダクション (VPO)

私たちは、視覚と聴覚の対応をより効果的に検証するために、より豊富で効率的な合成データセット VPO を提案します。以前のデータ セットと比較して、VPO は、最小限の収集コストで、多数の高品質のセグメンテーション グラウンド トゥルースとより複雑なシーンを取得できます。

561909cc682249533cb7cb59dd05fc16.png301cec2948371878423a81d878427fb6.pnga1dd654bd84c941d561d844cc0889f6e.png

実験方法 - 対照的オーディオビジュアルペアリング (CAVP)

42bf920fa95e373018b823c4a47fc4ad.png

以前に視聴覚定位のために設計された対照学習方法には、次の 2 つの問題があります。

1) 発声物体が疑似ラベルによって自動的に定義されるため、確証バイアス、2) 正負の関係のモデリングがピクセル単位で明示的に考慮されていないため、誤検知率が高い。最初の問題は、自動疑似ラベルをセマンティック セグメンテーション データセットで利用可能なピクセル レベルのマルチクラス アノテーションに置き換えることで解決します。2 番目の点に対処するために、VPO 合成の基本的な考え方に基づいて、初期トレーニング セットと視聴覚がランダムに割り当てられたシャッフル セットを利用して、教師あり対照学習用のさまざまな正と負のペアを含む豊富な対照セットを形成します。 。

実験結果

5e4709dd5dff82f292ec60de22b11c8b.png

実験では主に、mIoU、FDR、および F1 上の AVSBench-Object、VPO、および AVSBench-Semantic のモデルのパフォーマンスを比較します。実験結果は、私たちの方法が既存のオーディオビジュアルセグメンテーションデータセット上の既存のネットワークよりも大幅に優れており、含まれるパラメーターが少ないことを示しています。    

クリックして入力 —> [ターゲット検出と変換] Exchange グループ

最新の CVPR 2023 論文とコードのダウンロード

 
  

バックグラウンド返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。

バックグラウンド返信: Transformer レビュー、最新の 3 つの Transformer レビュー PDF をダウンロードできます

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理するのは簡単ではありません、いいねして見てください28b4cca9c92eaf0605db9fc72fb0d8d0.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/131733834