「コンピュータビジョンにおけるマルチビュージオメトリ」に関するメモ (0)

なぜこのコラムをやろうと思ったのですか?

コンピュータ ビジョンの主な研究目標は、コンピュータが 2D 画像を通じて 3D 環境情報を認識できるようにすることです。近年、SLAM、SfM+MVS、NeRF などの技術の爆発的な発展と関連産業の急速な発展に伴い、3D 再構成の分野に参加する人がますます増えています。

ただし、3D ビジョンを使い始めるのは困難です。クラスメートとコミュニケーションを取り、企業でインターンをし、オンラインコミュニティで共有する過程で、かなりの数の人が「棚に上がるために急いでアヒル」という条件で働き始めたことを知りました。彼らは学生として水平方向に進みたいと思っています。早くプロジェクトを終わらせて記事を公開して卒業したい、実務家として投資家向けのデモを作り、オープンソースコードを改善して今月のKPIをクリアしたい…なんとかなるかも短期的にはそうですが、さらに先に進みたい場合は、多くの疑問に直面するかもしれません。私もそんな状況でこの本に出会ったのですが、当時、よく分からなかった横の科目の中で偶然この方向性を発見し、卒業要件に合わせてネットワークを改造しようと色々試しましたが、ディープラーニングを使って乱暴に当てはめて答えを求めるだけでは、「わかっているけどなぜなのかわからない」状態なので、ぜひ「原理」を理解したいと思っています。

その後、「Multiple View Geometry in Computer Vision」という本を見つけましたが、これは本当に残念でした。皆さんにもぜひ原作を読んでいただくことを強くお勧めします。英語を読むのに問題がない場合は、英語版を読むことをお勧めします。

いくつかの参考文献

この本を読むためのリソースと参考資料は次のとおりです。

この列の内容

今日から、立体視に関するこの必読の本を章ごとにノートにまとめ、コラムとしてまとめてみたいと思います。この本は600ページを超え内容が多いので、メモでは全てを網羅することはできません(内容を丸写しするのと同じことになります)ので、重要な知識とちょっとした考えだけを整理し、コードと照らし合わせてみました(できれば) 副読本としてご活用いただければ幸いです。

おすすめ

転載: blog.csdn.net/YuhsiHu/article/details/122450300