CVPR2022|機能の一貫性の観点からドメインの一般化を再考するステレオマッチングネットワーク

下のカードをクリックして、「 CVer」パブリックアカウントをフォローしてください

AI / CVの重い乾物、できるだけ早く配達

著者:iscream |  許可を得て転載(出典:Zhihu)編集者:CVer

https://zhuanlan.zhihu.com/p/477669603

9b81766333ef3b439454a99e928e89a2.png

論文:https://arxiv.org/abs/2203.10887

コード:github.com/jiaw-z/FCStereo

ガイドを読むには長すぎます

三次元空間のシーンを双眼カメラで撮影し、左右の画像を取得します。エピポーラ補正後、左目と右目の画像の同じ3Dポイントのイメージポイントの水平座標は異なります。左右の画像の画像ポイントをマッピングし、それらの相対変位(視差とも呼ばれる)を取得することにより、復元された3Dシーンの深度情報を復元できます。

現在、ディープラーニングに基づくエンドツーエンドの両眼ネットワークが現在の主流の方法ですが、それらの一般化のパフォーマンスは一般的に劣っています。たとえば、生成データセット(SceneFlow、VKITTIなど)でトレーニングされたネットワークは、実際のデータセット(KITTI、Middleburyなど)では大幅に低下します。データセットの変更は、同様のシナリオでもネットワークのパフォーマンスに大きな変動を引き起こします。たとえば、2つのデータセットの同じ日中のストリートシーンでは、視差を予測するネットワークの能力に大きな違いがあります。

1f6d7a87177e885e889cf16c70bf36c5.png

特徴の一貫性の観点から両眼マッチングネットワークの一般化性能を改善するために、かなり単純で痛みのない方法を提案します。下の図に示すように、現在の一般的な両眼ネットワークは、一連の重み共有ネットワークを使用して、左目と右目の画像からそれぞれ特徴表現を抽出し、特徴のマッチングを実行して視差情報を取得します。

38b2b45db569d0d56dd2a38ce30d24de.png

具体的には、この記事は機能から始まり、一般化された双眼ネットワークは、クロスドメイン時に機能のすべての属性が不変である必要はないと考えているため、すべての属性を不変に制限するよりも弱い方法を提案します。制約-一致点の特徴表現をドメイン間で一貫性のある状態に保ちます。私たちの考え方は、主に両眼のタスクについて考えることから生まれます。深層学習の前の従来の方法は、事前設計に従ってRGB画像と一致し、ほとんどのシナリオで妥当な視差マップを安定して出力できます。双眼カメラでキャプチャされた左右のRGB画像のセットの場合、それらの間の変動は比較的小さいです。各シーンの左右のRGB画像の一貫性により、従来の方法では妥当なマッチング結果を得ることができます。両眼の一貫性を制約するだけで両眼ネットワークの一般化パフォーマンスを向上させることができれば、ドメイン間ですべての属性を制約するよりも、ドメイン間でのマッチングに役立つ情報が多く保持されます。たとえば、クロスドメインメソッドでは、色の変化に対する堅牢性が考慮されることがよくあります。素晴らしいですが、両眼画像間の色の変化は常に特定の(そして一般的には小さい)範囲内です。一部の属性を過度に削除すると、ネットワークの一般化が向上しますが、マッチングの利点の一部も失われます。情報。

論文の詳細な説明

近年、深層学習に基づく双眼ネットワークが急速に発展し、特にエンドツーエンド方式が現在の主流となっています。彼らは通常、一連の重み共有ネットワークを使用して、左目と右目の画像からそれぞれ特徴表現を抽出し、特徴のマッチングを実行して視差情報を取得します。これらのエンドツーエンドのステレオネットワークは、さまざまな公的に利用可能なデータセットで最先端の精度を実現します。ただし、主流の双眼ネットワークの一般化パフォーマンスが低いため、実際のアプリケーションが制限されます。一般化問題を解決するための現在の主流の方法は、主にネットワークの特性から始まり、ネットワークがドメイン間で不変の特徴表現を学習できるようにします。

f921f66ac1d65b011b260172c0a1bfa1.png
エンドツーエンドのステレオマッチングネットワークフレームワーク

この記事では、機能から始めて、一般化された両眼ネットワークでは、クロスドメイン時に機能のすべての属性が不変である必要はないと考えているため、すべての属性を不変に制限するよりも弱い制限、つまりクロスドメインを提案します。マッチングポイントの特徴表現の一貫性は、ドメイン内で維持されます。私たちの考え方は、主に両眼のタスクについて考えることから生まれます。深層学習の前の従来の方法は、事前設計に従ってRGB画像と一致し、ほとんどのシナリオで妥当な視差マップを安定して出力できます。両眼カメラで撮影した左右のRGB画像のセットでは、それらの間の変化は比較的小さく、異なるシーンのRGB画像の変化は大きく変化する一方で、両眼の視野角には不変があると考えることができます。比較すると、RGBは完全なクロスドメイン不変性を持っていないと考えることができます。各シーンの左右のRGB画像の一貫性により、従来の方法では妥当なマッチング結果を得ることができます。両眼の一貫性を制約するだけで両眼ネットワークの一般化パフォーマンスを向上させることができれば、ドメイン間ですべての属性を制約するよりも、ドメイン間でのマッチングに役立つ情報が多く保持されます。たとえば、クロスドメインメソッドでは、色の変化に対する堅牢性が考慮されることがよくあります。素晴らしいですが、両眼画像間の色の変化は常に特定の(そして一般的には小さい)範囲内です。一部の属性を過度に削除すると、ネットワークの一般化が向上しますが、マッチングの利点の一部も失われます。情報。

c0b15d88c940a34495b0710bb635229b.png

主流の方法でデータセットSceneFlowトレーニングを生成した後、各データセットの一致点の特徴の類似性を検証し、特徴の一貫性がドメイン間で大幅に低下するだけでなく、トレーニングセット間でも異なることを発見しました。

57b1afc9347f40b39dc424c7b2e2c886.png

一致するポイントの特徴表現のいくつかの視覚化は、左目と右目の画像が非常に類似している場合でも、ネットワークによって取得された特徴は依然として明らかな矛盾を示しています。

49be34ab6d6298444748e1be556aeeb1.png
SceneFlow
ebaa5eca4e7cf4eaf7e4f480fb917e9c.png
KITTI-2015

したがって、機能の一貫性の観点から両眼ネットワークを一般化するための出発点に対応する2つの課題に直面する必要があります。

  1. マッチングポイントと一致する特徴表現は、トレーニングセットで学習されます。

  2. 学習した機能の一貫性を有効にして、未知のデータセットに一般化します。

トレーニングセットの類似性が低いため、これは制約の欠如による過剰適合が原因であると考えられます。画像内の深度情報も単一の画像から十分に復元できます。この場合、左目と右目の画像が使用されますが、ネットワークの本質は、右目の情報を補足として使用して、左眼の深さ情報、非特徴マッチング。ピクセルレベルの対照的な学習ベースの損失を特徴表現に適用し、一致する点を近づけて、特徴空間内の無関係な点を押しのけます。対照学習を使用すると、最初の要件が効果的に達成されます。現時点では、未知のドメインに設定されたトレーニングの機能の一貫性をより適切に一般化する方法がボトルネックになり、ネットワーク一般化パフォーマンスのさらなる改善が制限されています。現在の方法では、ネットワークでデフォルトでバッチ正規化を使用して、トレーニングと収束を高速化します。ただし、このBNの正規化は、トレーニングデータに強く依存しています。BNの一部を、トレーニングセットに依存しないインスタンスの正規化に置き換えます。これに基づいて、特徴共分散行列に格納されている情報をさらに検討します。両眼画像の共分散行列の変化の大きさに応じて、両眼の変化に敏感な共分散行列の情報が削除されます。

0d3953755495e298fa75747859e194a9.png

私たちの方法は主流のモデルに適用され、それらの一般化パフォーマンスを大幅に改善します。私たちの方法は、通常のドメインシフトの不変性ではなく、左右の特徴の一貫性から始まります。これは直感に反しているように見えますが、一般化のパフォーマンスで良好な結果を達成します。この論文は、両眼ネットワークの新しい一般化のアイデアの良い試みであり、両眼機能の一貫性が両眼マッチングネットワークの一般化パフォーマンスと密接に関連していることを示しています。

84997d386f6885473e5047632d181c49.png 7cbdb2a630cfe4274772e2210a2226a2.png
 
  

ICCVおよびCVPR2021ペーパーおよびコードのダウンロード

舞台裏の返信:CVPR2021、 CVPR2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:ICCV2021、 ICCV2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:トランスフォーマーレビュー、最新の3つのトランスフォーマーレビューPDFをダウンロードできます

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号

整理は簡単ではありませんので、気に入って見てくださいd693a2a5e129efb088a0343f96958036.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/124441323