なぜこのコラムをやろうと思ったのですか?
コンピュータ ビジョンの主な研究目標は、コンピュータが 2D 画像を通じて 3D 環境情報を認識できるようにすることです。近年、SLAM、SfM+MVS、NeRF などの技術の爆発的な発展と関連産業の急速な発展に伴い、3D 再構成の分野に参加する人がますます増えています。
ただし、3D ビジョンを使い始めるのは困難です。クラスメートとコミュニケーションを取り、企業でインターンをし、オンラインコミュニティで共有する過程で、かなりの数の人が「棚に上がるために急いでアヒル」という条件で働き始めたことを知りました。彼らは学生として水平方向に進みたいと思っています。早くプロジェクトを終わらせて記事を公開して卒業したい、実務家として投資家向けのデモを作り、オープンソースコードを改善して今月のKPIをクリアしたい…なんとかなるかも短期的にはそうですが、さらに先に進みたい場合は、多くの疑問に直面するかもしれません。私もそんな状況でこの本に出会ったのですが、当時、よく分からなかった横の科目の中で偶然この方向性を発見し、卒業要件に合わせてネットワークを改造しようと色々試しましたが、ディープラーニングを使って乱暴に当てはめて答えを求めるだけでは、「わかっているけどなぜなのかわからない」状態なので、ぜひ「原理」を理解したいと思っています。
その後、「Multiple View Geometry in Computer Vision」という本を見つけましたが、これは本当に残念でした。皆さんにもぜひ原作を読んでいただくことを強くお勧めします。英語を読むのに問題がない場合は、英語版を読むことをお勧めします。
いくつかの参考文献
この本を読むためのリソースと参考資料は次のとおりです。
- オリジナル書籍ダウンロード チャネル 1: r5-org
- オリジナル書籍ダウンロード チャネル 2: Oxford VGG
- Matlab コード リンク:オックスフォード VGG
- Zhihu 上司からのメモ: 「コンピュータ ビジョンにおけるマルチビュー ジオメトリ」読書メモ - 電気光学ファントム錬金術
- Github に関するメモ: baoguoma/note-for-MVG
この列の内容
今日から、立体視に関するこの必読の本を章ごとにノートにまとめ、コラムとしてまとめてみたいと思います。この本は600ページを超え内容が多いので、メモでは全てを網羅することはできません(内容を丸写しするのと同じことになります)ので、重要な知識とちょっとした考えだけを整理し、コードと照らし合わせてみました(できれば) 副読本としてご活用いただければ幸いです。