コンピュータ ビジョン: マルチチャネルの畳み込み演算

この記事の焦点

これまでグレースケール画像(二次元画像)の畳み込み演算を学習しましたが、今回はRGBカラー画像(三次元立体画像)の畳み込み演算を学習します。グレースケール画像の特徴だけでなく、RGB カラー画像の特徴も検出したいと考えています。

カラー写真の表現

カラー画像は通常、RGB (赤、緑、青) の 3 つのカラー チャネルで表されます。各チャネルは、画像内の赤、緑、青の色の分布を表す 2 次元マトリックスです。したがって、カラー画像の寸法は m*n*3 で表されます。ここで、m はカラー画像の長さを表し、n はカラー画像の幅を表し、3 はカラー画像のチャネル数を表します。それぞれ赤、緑、青です。

上に示したように、これはカラー画像であり、6×6 の画像を 3 枚重ねたものと考えることができます。

3Dコンボリューション

以前はグレースケール画像が 2 次元であったため、使用されるコンボリューション カーネルも 2 次元でしたが、現在はカラー画像が 3 次元であるため、使用されるコンボリューション カーネルも 3 次元でなければなりません。注:フィルタには 3 つのチャネルがあり、元の画像の 3 つのチャネルに対応します。これら 2 つは一貫している必要があります。つまり、元の画像には 3 つのチャネルがあり、フィルタにも 3 つのチャネルがなければなりません。そうでない場合、畳み込み演算は行うことはできません。次のように:

 

カラー画像は 6×6×3、コンボリューションカーネルの次元は 3×3×3 カラー画像は 3 層、コンボリューションカーネルも 3 層あり、このときコンボリューションはそれぞれ赤、緑、青のチャンネル。

おすすめ

転載: blog.csdn.net/huanfeng_AI/article/details/131466172