3Dビジュアル・エッセイ

3Dビジュアル・エッセイ

書き込みに何を考えてみて。

1. 3Dターゲット検出タスク/ 6D姿勢推定タスクは、3D表現が必要です

2D画像は、3Dボックス(例えばPnPの位置決めとして?)幾何学的制約、例えばCVPR 2019 Xiaozhiチェン提案のようにステレオを添加することによって得ることができるが、タスクは、非常に非友好的である(3D位置+ 3Dサイズ+方向)3D検査用のデータをメッシュでありますR-CNNが、正確さに基づいてライダーのデータを比較して大きなギャップが依然として存在します。

マージ

融合RGBデータ(2次元グリッド、WxHx3マトリックス)とライダー点群データ(Nx3の行列)の場合、最も簡単な方法は、グリッドWxHx4を得ライダー深度マップ投影、単純CONCATENATE、になることです。
これは便利です、私はそれができるので、例えば、私は、と言うことです最初の論文、非常にまばらな深度マップ投影キティ(100Kドットについての絵)を参照してください、デプスマップの後処理の研究で人々を見てきました最終的な分類精度は(BB以下を参照されたいので、真剣に、3Dボックスバックの精度を低下させる必要がありそうにささやき、強化するようにバイラテラルフィルタリング動作は、そう深さは、再びRGB図CONCATENATE、緻密になること)。しかし、これは方法のグリッド/面/前面図は二つの大きな欠点に基づいています最初の正面から前記特徴によって表されるが、取り扱いRGBD閉塞を助長例えば2人の歩行者が非常に接近し、それが特徴とされているわけではないです簡単に混合することが、依然として問題は、二つの回帰/近すぎるバウンディングボックスの中心点から、そこに検出される。対照的に、点群、又は(CVPR17 MV3D、およびAVOD)を示す鳥瞰図を表す場合、またはボクセル表現(CVPR18 VoxelNet、および第二)、これらの表現の下で二人のすぐ近くに別のものです。第二は、学習地物からCNNです。CNNは見られないものの、Nx3の形状の特徴(参照CVPR17、PointNet、可視化の研究を学ぶことができる点群のRGB画像エッジ、テクスチャ特徴、1x1Conv(MLP)で学習することができますが、それは一時的なの形状ことがわかります機能)。しかし、私はちょうど、エッジ、テクスチャ特徴を学習する可能性があります深チャート上で非常に多くのCNNを疑います。もちろん、異なる深さは、それはそれは無用であると言うことはできませんが、ない点群が存在しないことをデプスマップ手段の端に有用です。さらに、CVPR2019擬似ライダーの資料に正面図が、デプスマップ・ボックスフィルタ(11×11のコンボリューション)後に同じように見える、ということを指摘したが、曇り点の形状が歪められています。(アイデアのような機能の誤分類が生じ、ノイズの少ない、ない人間の目が、実際に大きなインパクトを与えることができますのようなものを持つ画像。)

由于RGBD不好使,所以诞生出了MV3D(基于鸟瞰图表示),Frustum-Pointnet(基于点云表示),VoxelNet(基于体素表示),在KITTI榜上效果都很好,都能融合RGB信息。

2. 3D模型,合成数据和迁移

最典型的例子在6D姿态估计上,可以对所检测的物体都建立一个3D模型,然后就可以随意合成数据了(甚至可以渲染不同光照),这在2D图像上是很难的。这些合成的数据不需要特殊的迁移/领域自适应手段就能提高准确率,相当于数据增强的作用。但在另一方面,比如GTA5到现实世界的数据差异就比较大,需要进一步的领域自适应的研究。
【在一次用DenseFusion模型(一个融合RGB和点云特征做6D姿态估计的模型,CVPR2019)对YCB-Video数据集进行实验时,用大约1w真实数据+8w合成数据,得到AP大约为0.92;第二次实验只使用8w合成数据,得到AP大约为0.90,只降低了0.02.】

我经常也在想为什么做3D目标检测的都是train from stretch,而不是拿ModelNet,ShapeNet等模型数据集进行预训练。

3. 医学的3D数据

医学上不仅有3DCT,还有SMLM(Single molecule localization microscopy)产生的点云数据。

おすすめ

転載: www.cnblogs.com/simingfan/p/11782378.html