正面
インターネットで調べた情報によると、人間の目の解像度は約5億7,600万画素、目の中心視野は700万画素に相当し、その映像は目を通して脳に伝達され、完成した写真。デジタル画像はコンピュータ内で次々と点が集まって構成されており、この点をピクセルと呼びます。
白黒画像の表現
画像は0と1で構成されており、黒は0、白は1であり、黒と白の違いによって視覚的な違いが生じ、異なる画像情報が生成され、このような画像は2値画像になります。
通常、ピクセルは 1 バイト (8 ビット) で表現されますが、値の範囲 00000000 ~ 11111111 ([0,255]) によれば、8 ビットで純黒 + 254 色の 256 色を表現できます。白と黒の違い 黒、白、グレーなど256種類のグレースケール画像を使用し、グレー+純白の比率がグレースケール画像になります。
バイトはストレージの基本単位です。処理の利便性と一貫性のため、バイナリ イメージには 0 と 255 のみが含まれますが、グレースケール イメージの値の範囲は 0 ~ 255 の集合です。
画像処理の過程で、ピクセルのピクセル値の処理結果が 255 を超える場合があるため、次の 2 つの異なる処理方法があります。
- モジュロ処理、値の処理および256モジュロ処理
- 飽和処理、処理結果が255を超える場合は255かかり、255を超えない場合は値そのものとなります
上記のさまざまな処理方法は、ピクセル値が 255 を超える場合に、以降の numpy と opencv の処理方法に具体的に反映されます。
デジタル画像はコンピューター内の行列 (配列) に保存され、各要素には行番号と列番号を表すために使用される独自の位置値があります。opencv では、画像座標の原点は左上隅にあり、右側の原点は x 軸の正の方向であり、原点は下向きの y 軸の正の方向です。
画像処理で使用される画像の行と高さ、画像の列と幅は同じ意味を持ちます。
カラー画像の表現
白黒グレーだけでなく、鮮やかなカラーも豊富なイメージです。
光学原色 (赤、緑、青)。光学の三原色を異なる割合で混ぜ合わせてディスプレイ画面に表示できるさまざまな色を形成するため、この方法が RGB 色空間にもなります。
R、G、B はそれぞれ 3 つの色成分のサイズに対応し、各成分の値は [0,255] であるため、RGB は合計 256*256*256=16777216 の異なる色を表示でき、肉眼で認識できる範囲をはるかに超えています。認識することができます。
通常、コンピューターが RGB モードでピクセルを保存または計算する場合、各色成分の値を個別に保存します。つまり、RGB 色空間には R チャネル、G チャネル、B チャネルがあります。
おおよそ、R成分、G成分、B成分をそれぞれ格納した512*512の薄紙3枚で構成される512*512のカラー画像であり、3枚の薄紙を特定の順序(RGB)で重ねてカラー画像を形成します。この 3 枚の薄紙をそれぞれ R チャネル、G チャネル、B チャネルと呼びます。
他の概念
- 量子化: 画像をコンピューターが理解して処理できる数値に変換することが量子化となるため、すべての RGB チャネルと各チャネルが特定の色の値を持ちます。
- 特徴: 顔認識を行う場合は、まず顔の位置を知る必要があり、顔の範囲が特徴であり、顔識別を行う場合は、顔の主要な特徴を抽出して比較する必要があります。
- 距離: 距離を使用して画像間の差異を測定します。これは、区別および識別するのに便利です。
マンハッタン距離:各点の特性の差の絶対値の和 |x1-x2| + |y1-y2|
ユークリッド距離: 各点の特性の差の二乗和、ルート記号を開く √ (|x1-x2|²+|y1-y2|²)
画像の識別
顔認識アイコン:
画像で画像を検索:
デジタル識別アイコン:
画像認識の一般的なプロセス:
情報隠蔽
デジタル情報の隠蔽は、あるアルゴリズムに従って実現される。
インテリジェントな画像処理の基礎
適切な特徴を選択する: 画像の特徴を詳細に要約し、異なる画像間の違いを反映します。
適切な定量化方法: 特徴を合理的な値に定量化します。
距離計算: 適切な距離計算方法を選択して距離を計算します。
伝統的な方法 |
自分で特徴を抽出し、自分で処理する |
機械学習手法 |
自分で特徴を抽出し、自動的に処理する |
ディープラーニング手法 |
高レベルの特徴を自動的に抽出し、特徴を自動的に処理する |