CVPR2020記事の概要|点群処理、3D再構成、姿勢推定、SLAM、3Dデータセットなど(12記事)

著者:トム・ハーディ
日付:2020-04-15
1.PVN3D:6DoF PoseEstimationのためのディープポイントワイズ3Dキーポイント投票ネットワーク
記事のリンク:https://arxiv.org/abs/1911.04231
コードリンク:https://github.com/ethnhe/PVN3D
この研究では、この論文は、単一のRGB-D画像からロバストな6-DOFオブジェクトポーズ推定を実行できる新しいデータ駆動型メソッドを提案します。姿勢パラメータを直接返す方法とは異なり、このホワイトペーパーでは、キーポイントベースの方法を使用して、この困難なタスクを処理します。具体的には、オブジェクトの3次元の主要なポイントを検出するためにディープハフ投票ネットワークが提案され、最小二乗法を使用して6Dポーズパラメーターが推定されます。この論文の方法は、2次元のキーポイント法を自然に拡張したものであり、RGBベースの6自由度の推定にうまく使用されています。それは、ネットワークの学習と最適化を容易にするために追加の深さ情報を持つ剛体オブジェクトの幾何学的制約を最大限に活用できます。多数の実験により、6D姿勢推定タスクにおける3Dキーポイント検出の有効性が確認されています。実験結果は、このペーパーの方法が複数のベンチマークでの最新の方法よりもはるかに高いパフォーマンスを持っていることも示しています。
2.D3VO:単眼のVisualOdometryのための深い深度、深いポーズ、深い不確実性
論文リンク:https://arxiv.org/abs/2003.01060
この論文では、深さ、姿勢、不確実性の3つのレベルのディープネットワークを利用する新しい単眼の視覚オドメトリフレームワークとしてD3VOを提案しています。この論文は、最初に、外部モニタリングなしの新しい立体単眼深度推定ネットワークを提案します。これは、輝度変換パラメーターを予測することにより、トレーニング画像ペアを類似の照明条件に合わせます。さらに、入力画像上のピクセルの測光の不確実性がモデル化されます。これにより、深度推定の精度が向上し、直接(機能のない)視覚オドメトリの測光残差に学習済みの重み関数が提供されます。評価結果は、ネットワークのパフォーマンスが既存の自己管理型深度推定ネットワークよりも優れていることを示しています。D3VOは、予測された深度、姿勢、不確実性を直接視覚オドメトリ方式に統合します。これにより、フロントエンドのトラッキングパフォーマンスとバックエンドの非線形最適化パフォーマンスの両方が向上します。論文は、KITTIオドメトリベンチマークとEuRoC MAVデータセットの単眼視覚オドメータに基づいてD3VOを評価します。結果は、D3VOアルゴリズムが最も高度な単眼VOアルゴリズムよりもはるかに優れていることを示しています。また、1台のカメラで、KITTIの最先端のステレオ/ライダー走行距離計、EuRoC MAVの最先端の視覚慣性走行距離計に匹敵する結果も得られました。
3.Total3DUnderstanding:単一の画像からの屋内シーンの共同レイアウト、オブジェクトポーズ、MeshReconstruction
論文リンク:http://arxiv.org/abs/2002.12212v1
屋内シーンの意味的再構成とは、シーンの理解とオブジェクトの再構成を指します。既存の作業は、この問題の一部を解決するか、独立したオブジェクトに焦点を当てています。この記事では、理解と再構築の間のギャップをリンクし、部屋のレイアウト、オブジェクトの境界ボックス、グリッドを1つの画像から共同で再構築するエンドツーエンドの方法を提案します。この論文の方法は、シーン理解とオブジェクト再構成の問題を個別に解決するのではなく、シーン全体のコンテキストに基づいており、大まかなものから細かいものまでの階層を提案します。階層は、3つの部分で構成されています。 、3Dオブジェクト境界ボックス、オブジェクトグリッド。各コンポーネントのコンテキストを理解することで、他のコンポーネントを解析して共同理解とリファクタリングを実現できると確信しています。SUN-RGBDおよびPix3Dデータセットの実験は、この方法が屋内レイアウト推定、3Dオブジェクト検出およびメッシュ再構成において既存の方法よりも優れていることを示しています。
4.RPM-Net:学習した機能を使用したロバストなポイントマッチング
論文リンク:http://arxiv.org/abs/2003.13479v1
コードリンク:https://github.com/yewzijian/RPMNet
反復最近傍点法(ICP)は、(1)空間内の最近傍点間の対応のハード割り当てと(2)最小二乗剛変換の2つのステップで剛点群の登録問題を解決します。空間距離に基づく最も近いポイントに対応するハード割り当ては、初期の剛体変換とノイズ/外れ値ポイントの影響を受けやすいため、ICPが誤ったローカル最小値に収束することがよくあります。このペーパーでは、初期化の影響を受けないディープラーニングに基づく剛体点群の登録方法であるRPMネットワークについて説明します。ネットワークは、微分可能なシンクホーンレイヤーとアニーリングアルゴリズムを使用して、空間座標とローカルジオメトリから学習された混合フィーチャからポイントに対応するソフト割り当てを取得します。レジストレーションパフォーマンスをさらに向上させるために、このペーパーでは、最適なアニーリングパラメーターを予測するためのセカンダリネットワークを紹介しています。一部の既存の方法とは異なり、RPMネットワークは、点群の欠落した対応と部分的な可視性を処理できます。実験結果は、既存の非ディープラーニングや最新のディープラーニング手法と比較して、このホワイトペーパーのRPMネットワークがSOTAを実現していることを示しています。
5.マルチビュー3D点群登録の学習
論文リンク:https://arxiv.org/abs/2001.05119v2
コードリンク:https://github.com/zgojcic/3D_multiview_reg
このペーパーでは、新しいエンドツーエンドの学習可能なマルチビュー3Dポイントクラウド登録アルゴリズムを提案します。複数のスキャンの登録は通常、2段階のプロセスに従います。最初のペアワイズアライメントとグローバルな一貫した最適化です。前者は、隣接する点群間の重なりの度合いが低く、対称性が強く、シーンが部分的に繰り返されているため、あいまいになることがよくあります。したがって、後者のグローバルな改良は、複数のスキャンにわたってサイクルの一貫性を確立し、あいまいな状況を解決することを目的としています。このペーパーでは、これら2つの段階を共同で学習する最初のエンドツーエンドアルゴリズムを提案します。承認されたベンチマークデータセットの実験的評価は、このペーパーの方法が現在の最先端の方法よりもはるかに優れており、エンドツーエンドのトレーニングと低い計算コストの特性を備えていることを示しています。さらに、紙の方法の新しい構成要素を検証するために、詳細な分析とアブレーション研究が提示されます。
6.D3Feat:密な検出の共同学習と3DLocal機能の説明
論文リンク:http://arxiv.org/abs/2003.03164v1
コードリンク:https://github.com/XuyangBai/D3Feat
点群の登録が成功するかどうかは、通常、3次元の局所的な特徴を区別することによる疎な一致の確立に依存しています。学習ベースの3D機能記述子の急速な開発にもかかわらず、3D機能検出器の学習は、これら2つのタスクの共同学習はもちろんのこと、十分な注目を集めていません。本論文では、3次元完全畳み込みネットワークを使用して3次元点群を学習し、新しい実用的な学習メカニズムを提案します。この学習メカニズムにより、各3次元点の検出スコアと記述特徴を集中的に予測できます。特に、3次元の点群の固有の密度変化を克服するためのキーポイント選択戦略が提案され、トレーニングプロセス中のリアルタイムフィーチャマッチング結果によって導かれる自己監視型検出器損失がさらに提案されます。最後に、このペーパーのメソッドは、屋内と屋外の両方のシナリオで最新の結果を達成し、3DMatchおよびKITTIデータセットで評価し、ETHデータセットで強力な汎化機能を示しました。実際のアプリケーションでは、信頼性の高い特徴検出器を使用して少数の特徴をサンプリングし、正確で高速な点群アライメントを実現します。
7.SPARE3D:3ビューの線画での空間推論のためのデータセット
論文リンク:http://arxiv.org/abs/2003.14034v1
データセットリンク:https://ai4ce.github.io/SPARE3D
空間的推論は人間の知性の重要な部分です。3次元オブジェクトの形状とその空間関係の理由を想像できます。2次元で3つのビューラインを見るだけで、レベルが異なります。
能力。ディープネットワークをトレーニングして、空間推論タスクを実行できますか?彼らの「空間知能」をどのように測定しますか?これらの質問に答えるために、このペーパーではSPARE3Dデータセットを示します。認知科学と心理測定学に基づいて、SPARE3Dには、ビューの一貫性、カメラのポーズ、形状の生成など、次第に難しくなる3種類の2D-3D推論タスクが含まれています。私たちは、各タスクの基本的な真の答えとともに、多数の挑戦的な質問を自動的に生成する方法を設計しました。これらは、ベースラインモデルをトレーニングするために、最先端のアーキテクチャ(ResNetなど)を使用するための監視を提供するために使用されます。実験は、畳み込みネットワークが多くの視覚学習タスクで超人的なパフォーマンスを達成したが、SPARE3Dでのそれらの空間推論パフォーマンスは、ランダムな推測とほぼ同等であることを示しています。
SPARE3Dが新しい空間推論問題の公式とネットワーク設計を刺激し、インテリジェントロボットが2次元センサーを介して3次元の世界で効果的に作業できるようになることを願っています。
8.InPerfectShape:2DLandmarksからの確実に最適な3D形状再構成
論文リンク:http://arxiv.org/abs/1911.11924v2
このペーパーでは、単一の画像から抽出された2Dランドマークからの3D形状再構成の問題を検討します。3次元の変形可能な形状モデルを使用して、再構成プロセスはカメラポーズと線形形状パラメーターの同時最適化として説明されます。論文の最初の貢献は、ラッセルの凸二乗和(SOS)緩和階層を適用して形状再構成問題を解決し、最小2次SOS緩和が元の非凸問題を正確に解決することを証明することです。論文の2番目の貢献は、目的関数の多項式の構造を使用して、SOS緩和基底単項式の削減されたセットを見つけることです。これにより、精度に影響を与えることなく、結果の半定値プログラム(SDP)が大幅に削減されますサイズ。
これらの2つの貢献は、3D形状再構成のための最初の証明可能な最適ソルバーにつながります。これを形状*と呼びます。この論文の3番目の貢献は、切り捨て最小二乗(TLS)のロバストコスト関数と勾配非凸性を使用してTLSを解決し、初期化せずに外れ値拒否レイヤーの形状*を追加することです。その結果、Shape#という名前の堅牢な再構築アルゴリズムが実現します。これは、多数の外れ値測定を許容できます。
9.PFNet:3D点群補完のためのポイントフラクタルネットワーク
論文リンク:http://arxiv.org/abs/2003.00410v1
このペーパーでは、新しい学習ベースの点群を正確かつ高忠実度で完成するメソッドポイントフラクタルネットワーク(PFNet)を提案します。PFNetは、既存の点群完了ネットワークとは異なります。これは、不完全な点群から点群の全体的な形状を生成し、常に既存の点を変更します。ノイズや幾何学的損失が発生した場合、不完全な点群を保持します空間レイアウトおよび欠落した点群の詳細な幾何学的構造の予測で面積を計算できます。このタスクを正常に完了するために、PF-Netは、特徴点に基づくマルチスケール生成ネットワークを使用して、欠落した点群の階層推定を実行します。さらに、この論文では、多段階の完了損失と敵対的損失を追加して、より実際の欠落領域を生成します。予測では、敵対的損失は複数のモードをより適切に処理できます。実験は、いくつかの困難な点群の完了タスクに対するこの論文の方法の有効性を証明します。
10.PointAugment:点群分類のための自動拡張フレームワーク
論文リンク:http://arxiv.org/abs/2002.10876v2
このペーパーでは、分類ネットワークをトレーニングしてデータの多様性を高めるときに、点群サンプルを自動的に最適化および拡張する新しい自動拡張フレームワークPointAugmentを提案します。既存の2次元画像の自己強調法とは異なり、PointAugmentにはサンプル認識の機能があり、エンハンサーネ​​ットワークと分類子ネットワークを共同で最適化するために敵対的な学習戦略を採用しているため、エンハンサーは分類器に最適なエンハンサーサンプルの生成を学習できます。さらに、このペーパーでは、形状変換と点変位を使用して学習可能な点拡張関数を構築し、分類器の学習の進行状況に応じて、拡張サンプルを使用して損失関数を注意深く設計します。多数の実験により、PointAugmentの有効性と堅牢性が確認され、形状の分類と取得におけるさまざまなネットワークのパフォーマンスが向上しました。
11.PointASNL:非局所ニューラルネットワークと適応サンプリングを使用したロバストな点群処理
論文リンク:https://arxiv.org/abs/2002.10876v2
コードリンク:https://github.com/yanx27/PointASNL
元の点群データは、3次元センサーによって収集または再構築されますが、このセンサーには異常な点やノイズが必ず含まれています。この論文は、ノイズの多い点群に効果的に対処できる新しいエンドツーエンドの点群処理ネットワークPointASNLを提案します。この方法の重要な部分は、適応サンプリング(AS)モジュールです。これは、最も遠いポイントサンプリング(FPS)から始まり、最初のサンプリングポイントの周辺を再重み付けしてから、点群全体の外側のサンプリングポイントを適応的に調整します。ASモジュールは、点群の特徴学習を容易にするだけでなく、異常な点のバイアス効果を軽減することもできます。サンプリングポイントの近傍依存性と長距離依存性をさらにキャプチャするために、このペーパーでは、非ローカル操作に基づくローカル非ローカル(L-NL)モデルを提案します。このL-NLモジュールは、学習プロセスをノイズの影響を受けにくくします。合成データ、屋内データ、ノイズのある屋外データのいずれであっても、点群処理タスクにおけるメソッドの堅牢性と優位性が多数の実験で確認されています。PointASNLは、すべてのデータセットの分類およびセグメンテーションタスクの最新の堅牢なパフォーマンスを実現し、ノイズの多い条件下でのSemanticKITTIデータセットの以前の方法よりも大幅に優れています。
12.RandLANet:大規模な点群の効率的なセマンティックセグメンテーション
論文リンク:http://arxiv.org/abs/1911.11236v2
このペーパーでは、大規模な3D点群の効果的なセマンティックセグメンテーションの問題について検討します。高価なサンプリング技術または計算集約型の前処理/後処理ステップに依存しているほとんどの既存の方法は、小規模の点群でのみトレーニングおよび操作できます。このペーパーでは、大規模な点群のポイントごとのセマンティクスを直接推論するために使用される、効率的で軽量なニューラルネットワーク構造RandLA-Netを紹介します。紙の方法の鍵は、より複雑な点の選択方法ではなく、ランダムな点のサンプリングを使用することです。
ランダムサンプリングは計算効率とストレージ効率が大幅に向上しますが、主要な機能が誤って破棄される可能性があります。この欠点を克服するために、このペーパーでは、新しいローカルフィーチャ集約モジュールを導入して、各3Dポイントの受信フィールドを徐々に増加させ、幾何学的な詳細を効果的に保持しています。多くの実験により、RandLAネットワークは1パスで100万ポイントを処理できることが示されています。これは、既存の方法より200倍高速です。さらに、RandLAネットワークSemantic3DとSemanticKITTIは、最新のセマンティックセグメンテーション手法を明らかに超える2つの大規模ベンチマークです。
 

おすすめ

転載: www.cnblogs.com/YongQiVisionIMAX/p/12702797.html