Kapitel 1 – Grundlagen digitaler Bilder

Vorderseite

Den im Internet recherchierten Informationen zufolge entspricht die Auflösung des menschlichen Auges etwa 576 Millionen Pixel, und das zentrale Sehvermögen der Augen entspricht 7 Millionen Pixel. Das Bild wird über die Augen an das Gehirn übertragen, um ein Bild zu bilden vollständiges Bild. Ein digitales Bild setzt sich im Computer nacheinander aus Punkten zusammen, und diese Punkte werden Pixel genannt.

Darstellung von Schwarz-Weiß-Bildern

Das Bild besteht aus 0 und 1, Schwarz ist 0, Weiß ist 1, der visuelle Unterschied wird durch den Unterschied zwischen Schwarz und Weiß verursacht, wodurch unterschiedliche Bildinformationen erzeugt werden. Ein solches Bild wird zu einem Binärbild.

Unter normalen Umständen wird ein Byte (8 Bit) zur Darstellung eines Pixels verwendet. Gemäß dem Wertebereich von 00000000 ~ 11111111, also [0,255], können 8 Bit zur Darstellung von 256 Farben verwendet werden, dh reines Schwarz + 254 Unterschiedliches Schwarz und Weiß Das Verhältnis von Grau + reinem Weiß wird unter Verwendung von 256 Arten von Graustufenbildern wie Schwarz, Weiß und Grau zu einem Graustufenbild.

Das Byte ist die Grundeinheit der Speicherung. Aus Gründen der Bequemlichkeit und Konsistenz der Verarbeitung enthält das Binärbild nur 0 und 255, während der Wertebereich des Graustufenbilds eine Sammlung von 0 bis 255 ist.

Bei der Bildverarbeitung kann der Pixelwert des Pixels im Verarbeitungsergebnis 255 überschreiten. Daher gibt es zwei verschiedene Verarbeitungsmethoden:

  1. Modulo-Verarbeitung, Verarbeitungswerte und 256 Modulo-Verarbeitung
  2. Sättigungsverarbeitung: Wenn das Verarbeitungsergebnis 255 überschreitet, werden 255 benötigt. Wenn es 255 nicht überschreitet, ist es der Wert selbst

Die oben genannten unterschiedlichen Verarbeitungsmethoden spiegeln sich insbesondere in den nachfolgenden Verarbeitungsmethoden von Numpy und OpenCV wider, wenn der Pixelwert 255 überschreitet.

Digitale Bilder werden in einer Matrix (Array) im Computer gespeichert, und jedes Element hat seinen eigenen Positionswert, der zur Darstellung der Zeilennummer und Spaltennummer verwendet wird. In opencv liegt der Ursprung der Bildkoordinaten in der oberen linken Ecke, der Ursprung rechts ist die positive Richtung der x-Achse und der Ursprung liegt nach unten in der positiven Richtung der y-Achse.

Die in der Bildverarbeitung verwendete Zeile und Höhe des Bildes haben dieselbe Bedeutung, und die Spalte und Breite des Bildes haben dieselbe Bedeutung.

Darstellung von Farbbildern

Das Bild ist nicht nur schwarz und weißgrau, sondern auch eine Vielzahl brillanter Farben.

Optische Primärfarben (Rot-Grün-Blau). Die optischen drei Primärfarben werden in unterschiedlichen Anteilen gemischt, um verschiedene Farben zu bilden, die auf dem Bildschirm angezeigt werden können, sodass diese Methode auch zum RGB-Farbraum wird.

R, G und B entsprechen jeweils der Größe der drei Farbkomponenten. Jeder Komponentenwert beträgt [0,255], sodass RGB insgesamt 256 * 256 * 256 = 16777216 verschiedene Farben anzeigen kann, weit über den Bereich hinaus, den das bloße Auge erkennt wahrnehmen kann.

Wenn ein Computer Pixel im RGB-Modus speichert oder berechnet, speichert er normalerweise den Wert jeder Farbkomponente separat, d. h. im RGB-Farbraum gibt es einen R-Kanal, einen G-Kanal und einen B-Kanal.

Es handelt sich ungefähr um ein 512*512-Farbbild, das aus drei 512*512 dünnen Papieren besteht, die jeweils die R-Komponente, die G-Komponente und die B-Komponente speichern. Die drei dünnen Papiere werden in einer bestimmten Reihenfolge (RGB) gestapelt, um eine Farbe zu bilden Bild. , Diese drei dünnen Papiere werden als R-Kanal, G-Kanal bzw. B-Kanal bezeichnet.

einige andere Konzepte

  1. Quantisierung: Das Umwandeln von Bildern in numerische Werte, die Computer verstehen und verarbeiten können, wird zur Quantisierung, sodass alle RGB-Kanäle und jeder Kanal bestimmte Farbwerte haben.
  2. Merkmale: Bei der Gesichtserkennung müssen Sie zuerst die Position des Gesichts ermitteln, und der Bereich des Gesichts ist das Merkmal. Bei der Gesichtserkennung müssen Sie die Hauptmerkmale des Gesichts zum Vergleich extrahieren.
  3. Abstand: Verwenden Sie den Abstand, um den Unterschied zwischen Bildern zu messen, was zur Unterscheidung und Identifizierung hilfreich ist.

Manhattan-Distanz: die Summe der Absolutwerte der Differenzen der Eigenschaften jedes Punktes |x1-x2| + |y1-y2|

Euklidischer Abstand: Die Summe der Quadrate der Differenzen der Eigenschaften jedes Punktes und dann das Wurzelzeichen √ (|x1-x2|²+|y1-y2|²) öffnen.

Bildidentifikation

Gesichtserkennungssymbol:

Bilder nach Bildern suchen:

Symbol für die digitale Identifikation:

Der allgemeine Prozess der Bilderkennung:

Informationen verbergen

Das Verbergen digitaler Informationen erfolgt nach einem bestimmten Algorithmus.

Grundlagen der intelligenten Bildverarbeitung

Wählen Sie geeignete Funktionen aus: Fassen Sie die Bildeigenschaften gut zusammen und spiegeln Sie die Unterschiede zwischen verschiedenen Bildern wider

Geeignete Quantifizierungsmethode: Quantifizieren Sie Merkmale in vernünftige Werte

Entfernungsberechnung: Wählen Sie die entsprechende Entfernungsberechnungsmethode zur Berechnung der Entfernung

traditionelle Art und Weise

Extrahieren Sie Features selbst und verarbeiten Sie sie selbst

Methode des maschinellen Lernens

Extrahieren Sie Features selbst und verarbeiten Sie sie automatisch

Deep-Learning-Methode

Extrahieren Sie automatisch High-Level-Features und verarbeiten Sie Features automatisch

Supongo que te gusta

Origin blog.csdn.net/sunguanyong/article/details/129134089
Recomendado
Clasificación