Deep Learning zur bildbasierten Einbruchserkennung

Autor: Zen und die Kunst der Computerprogrammierung

1. Einleitung

Das bildbasierte Intrusion Detection-System (Intrusion Detection Based on Image, IDI) stellt ein komplexes und wichtiges Anwendungsfeld dar. Es kann zur Überwachung und Identifizierung böswilligen Verhaltens, Bedrohungen und Angriffen in Computernetzwerken verwendet werden und hat einen breiten Anwendungswert. Mit der Entwicklung der Deep-Learning-Technologie in den letzten Jahren ist die Bildverarbeitung zu einem neuen, heißen Forschungsgebiet geworden. Als Übersichtsartikel werden in diesem Artikel die am häufigsten verwendeten bildbasierten Einbruchserkennungsmethoden in Kombination mit den neuesten Fortschritten in der Deep-Learning-Technologie vorgestellt, um einen objektiven Überblick über die neuesten Forschungsergebnisse in verschiedenen Bereichen zu geben. Abschließend geben wir den Lesern auch einen Ausblick auf zukünftige Forschungsrichtungen. Aus Zeitgründen müssen die im Artikel behandelten verwandten technischen Bereiche noch erweitert werden.

2. Schlüsselwörter: Deep Learning, Intrusion Detection, Bildmerkmalsextraktion, Faltungs-Neuronales Netzwerk, Faltungs-Autoencoder, unbeaufsichtigtes Lernen, Autoencoder, halbüberwachtes Lernen, GANs, Multitasking-Lernen usw.

3.Vorwort

Die Extraktion von Bildmerkmalen ist eine grundlegende Aufgabe im Deep Learning und wird in vielen Bereichen der Bildverarbeitung häufig eingesetzt. Neuere Forschungen haben gezeigt, dass Convolutional Neural Networks (CNNs) globale Informationen effektiv in Bildern erfassen und bei Klassifizierungsaufgaben eine sehr gute Leistung erzielen können. Daher wird die auf CNN basierende Bildmerkmalsextraktionstechnologie heute zu einer der gängigen Methoden des Deep Learning.

Ähnlich wie die Bildmerkmalsextraktion ist die Bildklassifizierung und -erkennung eine wichtige Aufgabe des maschinellen Lernens. Auf Deep Learning basierende Bildklassifizierungsmethoden werden hauptsächlich in zwei Kategorien unterteilt: Die eine ist eine unbeaufsichtigte Methode, das heißt, der Trainingssatz enthält keine Etiketteninformationen und kann nur die Ähnlichkeit zwischen Bildern für das Training verwenden, die andere ist eine überwachte Methode Das heißt, der Trainingssatz enthält sowohl Beschriftungsinformationen als auch die Korrelation zwischen Bildern, und diese Informationen werden für das Training verwendet. Beide Methoden haben ihre eigenen Vor- und Nachteile.

Unüberwachte Methoden wie Clusteranalyse (Cluster Analysis), tiefe Clusteranalyse (Deep Clustering), Autoencoder (Autoencoder), GANs usw. Bei unbeaufsichtigten Methoden ist es normalerweise erforderlich, zuerst den Datensatz zu klassifizieren und dann die Klassifizierungsergebnisse als Beschriftungen zu verwenden, um die Originaldaten neu zu kennzeichnen. Unüberwachte Methoden führen aufgrund der Ähnlichkeit und zugrunde liegenden Struktur der Daten tendenziell zu qualitativ hochwertigen Ergebnissen. Sie können jedoch keine stark nichtlinearen Merkmale erfassen und es ist schwierig, nützliche Informationen aus Räumen niedrigerer Dimensionen zu extrahieren.

Zu den überwachten Methoden gehören Deep-Learning-Modelle und Support-Vektor-Maschinen (Support Vector Machines). Das Deep-Learning-Modell trainiert die Beschriftungsinformationen der Bilder im Trainingssatz und lernt Bildmerkmale und Klassifizierungsregeln, was zu einer guten Klassifizierungsgenauigkeit führt. Allerdings leiden sie oft unter Überanpassungsproblemen und sind schwierig mit verrauschten Daten umzugehen. Die Support-Vektor-Maschine muss die Daten nicht klassifizieren, sondern verwendet direkt die Ausgabebezeichnungen, die den Eingabedaten entsprechen, und erhält die Entscheidungsgrenze gemäß dem Prinzip der maximalen Marge. Seine Klassifizierungsgeschwindigkeit ist hoch und es ist äußerst robust gegenüber kleinen Stichproben, spärlichen Daten und abnormalen Daten. Es kann jedoch nur lokale lineare Merkmale erfassen und wird leicht durch Ausreißer beeinträchtigt.

Im Allgemeinen eignen sich unbeaufsichtigte Methoden für größere Datensätze ohne Beschriftungsinformationen, sodass sie die gesamte Merkmalsverteilung erfassen können. Überwachte Methoden eignen sich für kleine Mengen beschrifteter Datensätze oder Datensätze mit Beschriftungsinformationen. Durch Training mit bekannten Beschriftungsinformationen können bessere Ergebnisse erzielt werden Klassifizierungsergebnisse. Allerdings haben die beiden auch unterschiedliche Einschränkungen und Beschränkungen. In praktischen Anwendungen ist die Auswahl der am besten geeigneten Klassifizierungsmethode immer noch eine zentrale Frage.

Halbüberwachtes Lernen ist eine aufstrebende Forschungsrichtung im Bereich Deep Learning. Die Idee besteht darin, vorhandene Beschriftungsinformationen und unbeschriftete Daten für das Training zu nutzen, um Probleme wie Datenmangel, geringe Beschriftungseffizienz und Beschriftungsrauschen zu lösen. Deep-Learning-Modelle können die Klassifizierungsfähigkeit unbekannter Daten durch die Verwendung bekannter Etiketteninformationen verbessern und so bessere Klassifizierungsergebnisse erzielen. Da das Modell jedoch bei der Verarbeitung unbeschrifteter Daten auf Beschriftungsinformationen angewiesen ist, kann es zu einer Überanpassung kommen. Selbst wenn Etiketteninformationen verwendet werden, kann es außerdem sein, dass das Modell aufgrund der unterschiedlichen Eigenschaften der Daten Schwierigkeiten hat, zu konvergieren oder sogar genaue Vorhersagen zu treffen.

Um die Lücke zwischen den beiden oben genannten Methodentypen zu schließen, konzentrieren sich aktuelle Forschungsschwerpunkte hauptsächlich auf den Bereich des halbüberwachten Lernens. Diese Methode zielt darauf ab, vorhandene Label-Informationen und unbeschriftete Daten zu nutzen, um gemeinsam ein Deep-Learning-Modell zu trainieren, um bessere Klassifizierungsergebnisse zu erzielen. Beispielsweise sind das derzeit beliebte U-Net-Netzwerk und das SimCLR-Netzwerk allesamt Forschungsprojekte in dieser Richtung. In der Praxis ist die Kombination verschiedener Deep-Learning-Modelle und halbüberwachter Lernstrategien zum Aufbau eines effektiven, effizienten und skalierbaren Systems immer noch ein sehr wichtiges Thema.

Ziel dieses Artikels ist es, eine objektive Bewertung des aktuellen Forschungsstands und der Entwicklungsrichtung vorzunehmen, indem die neuesten Forschungsergebnisse zu herkömmlichen Methoden zur Erkennung von Bildeinbrüchen, zur Extraktion von CNN-Merkmalen, zum unbeaufsichtigten Lernen, zum halbüberwachten Lernen usw. überprüft werden. Gleichzeitig wird in diesem Artikel versucht, einen Blick in die Zukunft zu werfen und die langfristige Planung von Deep Learning im Bereich der Bildeindringungserkennung zu diskutieren.

4. Kerntechnologie

4.1 Herkömmliche Methode zur Erkennung von Bildeinbrüchen

Herkömmliche Methoden zur Erkennung von Bildeindringlingen werden in zwei Methoden unterteilt, die auf statistischer Analyse und maschinellem Lernen basieren. Zu den auf statistischer Analyse basierenden Methoden gehören der K-Means-Algorithmus, die Frequenzbereichsmethode, die Fourier-Transformation usw. Zu den Methoden des maschinellen Lernens gehören Bayes'sche Klassifikatoren, Support-Vektor-Maschinen usw. In diesem Abschnitt werden einige herkömmliche Methoden zur Einbruchserkennung kurz vorgestellt.

(a) Methoden, die auf statistischer Analyse basieren (z. B. K-Means)

Der K-Means-Algorithmus ist ein häufig verwendeter unbeaufsichtigter Clustering-Algorithmus. Dieser Algorithmus misst die Ähnlichkeit zwischen zwei Punkten basierend auf der Entfernung, klassifiziert ähnliche Punkte in eine Kategorie und klassifiziert verschiedene Punkte in verschiedene Kategorien. Der K-Means-Algorithmus besteht aus zwei Schritten: Initialisieren des Mittelpunkts und iteratives Aktualisieren des Mittelpunkts. Zunächst werden K Mittelpunkte zufällig ausgewählt. Im Allgemeinen beträgt der Wert von K 2 oder 3. Berechnen Sie dann den Abstand zwischen jedem Punkt und dem Mittelpunkt basierend auf dem euklidischen Abstand und weisen Sie den Punkt mit dem kleinsten Abstand der entsprechenden Kategorie zu, bis alle Punkte der entsprechenden Kategorie zugeordnet sind. Wiederholen Sie den obigen Vorgang, bis sich der Mittelpunkt nach Erreichen der angegebenen Anzahl nicht mehr ändert oder stoppt.

Obwohl der K-Means-Algorithmus einfach und leicht zu verstehen ist, geht er davon aus, dass alle Punkte der Gaußschen Verteilung gehorchen und die Verteilung innerhalb jeder Klasse ähnlich ist, was dazu führt, dass nicht-Gaußsche Verteilungsszenen nicht erfasst werden können. Darüber hinaus reagiert der K-Means-Algorithmus sehr empfindlich auf Ausreißer. Wenn Ausreißer vorhanden sind, können sie gegen die Einheitlichkeitsannahme verstoßen und zu Abweichungen in den Clustering-Ergebnissen führen.

(b) Fourier-Transformationsmethode

Die Fourier-Transformationsmethode bezieht sich auf das Abtasten einer Funktion mithilfe von Sinuskurven und Kosinuskurven und das anschließende Zeichnen einer Kurve unter Verwendung der Frequenz als Abszisse und der entsprechenden Amplitude als Ordinate. Durch Beobachtung der Kurvenform können Sie feststellen, ob Einbruchsverhalten vorliegt. Die Fourier-Transformationsmethode ist eine Methode zur Durchführung einer schnellen Fourier-Transformation an Bildsignalen. Bei der Fourier-Transformation werden Zeitbereichssignale zur Signalanalyse und -klassifizierung in Frequenzbereichssignale umgewandelt. Bei der Fourier-Transformationsmethode handelt es sich um eine Analyse logarithmischer Schwingungssignale.

Durch Beobachtung des Signaldiagramms nach der Fourier-Transformation können wir feststellen, ob ein Eindringverhalten vorliegt. Je größer die Amplitude des Signaldiagramms ist, desto aufdringlicher ist das Verhalten im Bild. Wenn ein Einbruch entdeckt wird, können Sie darüber nachdenken, den Eindringling zu bestrafen oder die Polizei zu rufen. Die Fourier-Transformationsmethode ist relativ einfach und leicht zu verstehen, stellt jedoch höhere Anforderungen an Bilder, da sie das Abtasten, erneute Abtasten und Filtern von Bildern erfordert.

(c) Zeitdiagramm

Das Sequenzdiagramm ist eine Methode, die Zeitinformationen verwendet, um Merkmale aus Bildern zu extrahieren. Ein Zeitdiagramm fügt Zeitachseninformationen in ein Bild ein. Konkret handelt es sich bei einem Zeitdiagramm um eine Sammlung von Bildpixeln, die in zeitlicher Reihenfolge angeordnet sind. Der Zeitpunkt des Einbruchverhaltens kann anhand des Sequenzdiagramms bestimmt werden.

Sequenzdiagramme werden im Allgemeinen mithilfe von Schiebefenstern erstellt. Die Größe des Schiebefensters kann ein fester Wert oder dynamisch sein, es kann beispielsweise jedes Mal um einen festen Schritt verschoben werden. Mithilfe des Sequenzdiagramms können Sie feststellen, ob das Einbruchsverhalten vorliegt und wie es sich entwickelt.

4.2 CNN-Feature-Extraktionsmethode

Vor Deep-Learning-Methoden war CNN eine wichtige Methode zur Extraktion von Bildmerkmalen. Es gibt drei Hauptformen der Bildmerkmalsextraktion basierend auf CNN: End-to-End, Klassifizierung und Sequenz. In diesem Abschnitt werden diese drei Methoden kurz vorgestellt.

(a) End-to-End

Das End-to-End-CNN-Modell verwendet das Originalbild direkt als Eingabe und gibt schließlich die Zielerkennungsergebnisse aus. Dieses Modell erfordert keine vorherige Merkmalsextraktion und kann die Kategorie-, Standort- und Maßstabsinformationen des Ziels direkt lernen. End-to-End-Methoden erfordern in der Regel ausreichend Daten, um gute Ergebnisse zu erzielen. Seine Nachteile sind jedoch die langsame Geschwindigkeit und der Ressourcenverbrauch.

Es gibt einige Werke, die versuchen, eine Einbruchserkennung durch End-to-End-Methoden durchzuführen, wie zum Beispiel das berühmte YOLO, SSD usw.

(b) Klassifizierung

Das CNN-Klassifizierungsmodell nutzt das CNN-Netzwerk, um Bildmerkmale zu extrahieren und sie an einen linearen Klassifikator zu senden. Bei dieser Methode muss zunächst ein CNN-Netzwerk trainiert und dann das trainierte Netzwerk zum Klassifizieren des Testsatzes verwendet werden. Der Vorteil dieser Methode besteht darin, dass sie schnell ist und weniger Ressourcen verbraucht. Es sind jedoch ausreichende Trainingsdaten erforderlich, um eine gute Klassifizierungsleistung zu erzielen.

Einige arbeiten daran, Eindringlinge mithilfe von Klassifizierungsmethoden zu erkennen, beispielsweise das berühmte InceptionNet, AlexNet usw.

(c) Reihenfolge

Das CNN-Sequenzmodell ist eine Methode zur Verarbeitung von Zeitreihenbildern. Es extrahiert relevante Merkmale in der Bildsequenz und verwendet dann RNN wie LSTM für die Sequenzmodellierung. Der Vorteil dieser Methode besteht darin, dass lokale Abhängigkeiten bei der Verarbeitung von Videosequenzdaten erfasst werden können. Der Nachteil besteht jedoch darin, dass die vollständigen Bildsequenzinformationen nicht vollständig modelliert werden und daher nur zum vorübergehenden Löschen eines Teils des Eindringlings verwendet werden kann.

Einige Arbeiten versuchen, die Einbruchserkennung mithilfe von Sequenzmethoden durchzuführen, beispielsweise dem berühmten ST-CNN, SE-CNN usw.

4.3 Unüberwachte Lernmethoden

Unüberwachtes Lernen ist ein Zweig des maschinellen Lernens, der darauf abzielt, Wissen aus unbeschrifteten Daten zu lernen. Deep-Learning-Modelle müssen Daten klassifizieren, aber aufgrund der unterschiedlichen Eigenschaften der Daten ist es für das Modell oft schwierig, bessere Klassifizierungsergebnisse zu erzielen. Daher bietet unüberwachtes Lernen eine weitere Option. Unüberwachtes Lernen umfasst hauptsächlich Clusteranalyse, Deep Clustering, Autoencoder, GANs usw.

(a) Clusteranalyse

Unter Clusteranalyse versteht man den Prozess der Gruppierung von Stichprobenpunkten eines Datensatzes ineinander. Es gibt verschiedene Möglichkeiten für Ähnlichkeitsmetriken, z. B. Euklidische Distanz, Mahalanobis-Distanz, Pearson-Korrelationskoeffizient usw. Der Zweck der Clusteranalyse besteht darin, die hervorstechenden Merkmale der Daten zu finden, dh die strukturellen Merkmale der Daten zu bestimmen, um eine Datenkomprimierung und Dimensionsreduzierung zu erreichen und die Datenverarbeitungseffizienz zu verbessern.

Einige Arbeiten versuchen, eine Einbruchserkennung durch Clusteranalyse durchzuführen, wie z. B. OPTICS, SCOTCH usw. im Artikel.

(b) Tiefes Clustering

Unter Deep Clustering versteht man die Verwendung von Deep-Learning-Modellen, um unbeschriftete Daten in mehrere Kategorien zu gruppieren. Im Gegensatz zu anderen unbeaufsichtigten Lernmethoden gruppiert Deep Clustering die Stichproben nicht einfach in die nächstliegenden Klassen, sondern verwendet ein Deep-Learning-Modell, um die Ähnlichkeiten zwischen Stichproben zu erlernen, sodass die Stichproben in Klassen mit ähnlichen Abständen geclustert werden. Deep-Clustering-Modelle benötigen den gesamten Datensatz als Eingabe und sind daher in der Lage, die gesamte Merkmalsverteilung zu erfassen.

In einigen Arbeiten wird versucht, eine Einbruchserkennung durch Deep-Clustering-Methoden wie HDBSCAN, DLCM usw. durchzuführen.

(c) Autoencoder

Autoencoder sind ein unbeaufsichtigtes Lernmodell, mit dem interne Merkmale von Daten extrahiert werden können. Der Autoencoder besteht aus einem Encoder und einem Decoder. Der Encoder codiert die Eingabedaten in eine latente Variable und der Decoder decodiert die latente Variable in die Originaldaten. Das Ziel des Autoencoders besteht darin, die Originaldaten so nah wie möglich an den Originaldaten zu kodieren und dann zu dekodieren und so die internen Eigenschaften der Daten zu erfassen.

In einigen Arbeiten wird versucht, eine Einbruchserkennung durch Autoencoder wie VAE, AAE, DAE usw. durchzuführen.

(d) GANs (Generative Adversarial Networks)

GANs sind ein generatives Modell, das verschiedene Daten wie Bilder, Videos, Text und Audio generieren kann. GANs bestehen aus einem Generator und einem Diskriminator. Der Generator generiert Zieldaten aus zufälligem Rauschen, und der Diskriminator ist für die Unterscheidung zwischen realen Daten und generierten Daten verantwortlich. Das Ziel von GANs besteht darin, Daten zu generieren, die möglichst konsistent mit realen Daten sind, sodass der Generator zur Zerstörung realer Daten verwendet werden kann, um echte Datenlecks zu vermeiden.

In einigen Arbeiten wird versucht, die Eindringlingserkennung über GANs wie WGAN, SNGAN usw. durchzuführen.

4.4 Halbüberwachte Lernmethode

Unter halbüberwachtem Lernen versteht man das Trainieren eines Modells anhand eines begrenzten markierten Datensatzes und die Verwendung unbeschrifteter Daten zur Überwachung. Im Bereich der Erkennung von Bildeinbrüchen werden halbüberwachte Lernmethoden in Datenverbesserung, kollaboratives Lernen, gemeinsames Lernen und Transferlernen unterteilt.

(a) Datenerweiterung

Unter Datenerweiterung versteht man die Generierung weiterer Daten durch Erweiterung des Datensatzes. Im Bereich der Einbruchserkennung gibt es zwei Optionen für Datenverbesserungsmethoden: Eine besteht darin, ein einzelnes Bild zu erweitern, und die andere darin, die gesamte Bildsequenz zu erweitern. Der Zweck der Datenerweiterung besteht darin, die Größe der Trainingsstichproben zu reduzieren und die Generalisierungsfähigkeit des Modells zu erhöhen.

In einigen Arbeiten wird versucht, die Erkennung von Eindringlingen durch Datenverbesserungsmethoden wie AutoAugment, RandAugment usw. durchzuführen.

(b) Kollaboratives Lernen

Unter kollaborativem Lernen versteht man, dass mehrere Modelle gemeinsam eine Zielfunktion trainieren, um die Leistung des Modells zu verbessern. Im Bereich der Erkennung von Bildeinbrüchen gibt es zwei Optionen für kollaborative Lernmethoden: gemeinsames Training und Klassifikatorlernen. Gemeinsames Training bedeutet, dass mehrere Modelle gemeinsam eine Zielfunktion trainieren. So können beispielsweise mehrere Modelle vorhersagen, ob ein Eingriff in das Bild vorliegt, und diese dann zur Klassifizierung kombinieren. Unter Klassifikatorlernen versteht man die Klassifizierung falsch vorhergesagter Daten und deren Übergabe an die nächste Iteration zusammen mit korrekten Daten.

Einige Arbeiten versuchen, die Erkennung von Eindringlingen durch kollaborative Lernmethoden durchzuführen, wie etwa CoMatch und CORAL im Artikel.

(c) Fusionslernen

Beim föderierten Lernen geht es darum, mehrere Modelle gleichzeitig zu trainieren und dann anhand ihrer Vorhersageergebnisse Vorhersagen zu treffen. Gemeinsames Lernen kann die Leistung des Modells verbessern, ohne die Trainingsstichproben zu erhöhen. Im Bereich der Erkennung von Bildeinbrüchen gibt es zwei Optionen für gemeinsame Lernmethoden: die Feature-Fusion und das Multitasking-Lernen. Feature-Fusion bedeutet, dass mehrere Modelle bestimmte Feature-Extraktoren gemeinsam nutzen und dann ihre Vorhersageergebnisse fusionieren. Multitasking-Lernen bezieht sich auf das Training mehrerer Modelle für verschiedene Aufgaben, z. B. die Vorhersage, ob ein Eindringen in das Bild vorliegt, die Art des Angriffsverhaltens im Bild, die Art des Zielobjekts im Bild usw.

Einige Arbeiten versuchen, eine Einbruchserkennung durch gemeinsame Lernmethoden durchzuführen, wie z. B. JIGSAW, DANN, MMSeg usw. im Artikel.

(d) Lernen übertragen

Unter Transferlernen versteht man die Verwendung eines vorab trainierten Modells und die darauf basierende Feinabstimmung. Die Anwendung des Transferlernens im Bereich der Erkennung von Bildeinbrüchen umfasst hauptsächlich die Merkmalsextraktion und die Zielerkennung. Die Merkmalsextraktion wird hauptsächlich für Bildklassifizierungsaufgaben vorab trainiert und dann für andere Aufgaben verfeinert. Bei der Objekterkennung geht es hauptsächlich darum, die Objekterkennungsaufgabe vorab zu trainieren und dann andere Aufgaben zu verfeinern. In beiden Fällen reduziert Transferlernen den Bedarf an Rechenressourcen und verbessert die Modellleistung.

Einige Arbeiten versuchen, eine Einbruchserkennung durch Transfer-Lernmethoden durchzuführen, wie z. B. SimCLR, BYOL, SwAV usw. im Artikel.

5. Übersicht

Der Hauptinhalt dieses Kapitels sind traditionelle Methoden zur Erkennung von Bildeindringlingen, Methoden zur Extraktion von CNN-Merkmalen, unbeaufsichtigte Lernmethoden, halbüberwachte Lernmethoden und zukünftige Forschungsrichtungen. Durch die Einführung in diesem Kapitel sollen die Leser in der Lage sein, die Merkmale, Vorteile und Einschränkungen der aktuellen Hauptmethoden im Bereich der Erkennung von Bildeinbrüchen zu verstehen. Gleichzeitig können Leser durch die Einführung traditioneller Methoden zur Erkennung von Bildeindringlingen, CNN-Merkmalsextraktionsmethoden, unbeaufsichtigten Lernmethoden und halbüberwachten Lernmethoden die Grenzen traditioneller Methoden und die Verbesserungsrichtungen für die Entwicklung verstehen.

Supongo que te gusta

Origin blog.csdn.net/universsky2015/article/details/133566070
Recomendado
Clasificación