Paper Essay |. Detaillierte Erklärung der Klassifizierungsleistung von Equal Angle Vector Bases (EBVs) basierend auf Shengsi ist deutlich besser als herkömmliche Klassifikatoren

Das Open-Source-Community-Team China machte seine erste Live-Übertragung und erzählte im Namen des Teilens die Geschichte hinter der Open-Source-Community China.“

**Autor:** Li Ruifeng

Papiertitel

Gleichwinklige Basisvektoren

Papierquelle

CVPR 2023

Link zum Papier

https://arxiv.org/abs/2303.11637

Code-Link

https://github.com/msfuxian/EBV

Als Open-Source-KI-Framework bietet MindSpore Industrie, Universitätsforschung und Entwicklern ein umfassendes Szenario für die Zusammenarbeit zwischen Geräten, Edge und Cloud, minimalistische Entwicklung, ultimative Leistung, extrem umfangreiches KI-Vortraining, minimalistische Entwicklung sowie eine sichere und vertrauenswürdige Lösung Erfahrung, 2020.3.28 Open Source hat mehr als 5 Millionen Downloads unterstützt, ist in die Lehre von über 100 Universitäten eingestiegen und ist über HMS auf über 5000 Apps erhältlich Entwickler und ist in den Bereichen KI-Rechenzentrum, Finanzen, intelligente Fertigung, Finanzen, Cloud, Wireless, Datenkommunikation, Energie, Verbraucher 1+8+N, intelligente Autos und andere End-Edge-Cloud-Autoszenarien weit verbreitet verwendet und ist die Open-Source-Software mit dem höchsten Gitee-Index. Jeder ist herzlich willkommen, an Open-Source-Beiträgen, Kits, Model-Crowd-Intelligence, Brancheninnovationen und -anwendungen, Algorithmusinnovationen, akademischer Zusammenarbeit, KI-Buchkooperation usw. teilzunehmen und Ihre Anwendungsfälle auf der Cloud-Seite, Geräteseite, Edge-Seite und anderen beizutragen Sicherheitsbereiche.

Mit der umfassenden Unterstützung von SunSilicon MindSpore aus der wissenschaftlichen und technologischen Gemeinschaft, der akademischen Welt und der Industrie machten KI-Artikel, die auf SunSilicon MindSpore basieren, im Jahr 2023 7 % aller KI-Frameworks aus und belegten damit zwei Jahre in Folge den zweiten Platz weltweit. Vielen Dank an CAAI und alle Universitäten Mit der Unterstützung der Lehrkräfte werden wir weiterhin hart zusammenarbeiten, um KI-Forschung und -Innovation zu betreiben. Die MindSpore-Community unterstützt die Forschung zu erstklassigen Konferenzbeiträgen und erstellt weiterhin originelle KI-Ergebnisse. Ich werde gelegentlich einige hervorragende Artikel zur Förderung und Interpretation auswählen. Ich hoffe, dass mehr Experten aus Industrie, Wissenschaft und Forschung mit MindSpore zusammenarbeiten, um die ursprüngliche KI-Forschung zu fördern. Dieser Artikel ist von Shengsi MindSpore. Für den 17. Artikel der AI-Konferenzpapierreihe habe ich mich entschieden, einen Artikel des Teams von Dr. Wei Xiushen von der School of Computer Science and Engineering der Nanjing University of Science and Technology zu interpretieren Ich möchte mich bei allen Experten, Professoren und Kommilitonen für ihre Beiträge bedanken.

MindSpore zielt darauf ab, drei Hauptziele zu erreichen: einfache Entwicklung, effiziente Ausführung und vollständige Szenarioabdeckung. Durch die Nutzungserfahrung entwickelt sich MindSpore, ein Deep-Learning-Framework, schnell weiter und das Design seiner verschiedenen APIs wird ständig in eine vernünftigere, vollständigere und leistungsfähigere Richtung optimiert. Darüber hinaus unterstützen verschiedene Entwicklungstools, die ständig aus Shengsi hervorgehen, dieses Ökosystem dabei, komfortablere und leistungsfähigere Entwicklungsmethoden zu erstellen, wie z. B. MindSpore Insight, das die Modellarchitektur in Form eines Diagramms darstellen und auch verschiedene Aspekte dynamisch überwachen kann Änderungen an Indikatoren und Parametern machen den Entwicklungsprozess komfortabler.

Das Problem, das dieser Artikel untersuchen möchte, ist das Klassifizierungsproblem großer Kategorien, beispielsweise Klassifizierungsprobleme von 100.000 oder 1 Million Kategorien. Für ein Netzwerk wie ResNet-50 erfordert die letzte lineare Schicht zur Bewältigung eines solchen Klassifizierungsproblems eine Parametermenge von 2048 × 100000 oder 2048 × 1000000, wodurch fc größer wird als die Parametermenge der vorherigen Merkmalsextraktionsschicht.

Andererseits wählen allgemeine Klassifizierungsprobleme One-Hot-Vektoren als Beschriftungen, die als orthogonale Basis verstanden werden können, bei der der Winkel zwischen zwei beliebigen Vektoren 90 Grad beträgt. Ende 2021 gab es im Annual Journal of Mathematics einen Artikel, der besagte, dass, wenn die Dimension D für einen gegebenen Winkel gegen Unendlich tendiert, die Anzahl der oben genannten Geraden mit gleichen Winkeln linear mit D zusammenhängt ( siehe Gleichwinklige Linien mit festem Winkel).

Wenn also die Winkel völlig gleich sind, ist die Anzahl der Kategorien groß und D muss ebenfalls groß sein. Die Idee am Anfang dieses Artikels besteht also darin, einige Optimierungen am Winkel vorzunehmen. Wenn der Winkel grob auf 83-97 (Achsensymmetrie) beschränkt ist, können 5000 Dimensionen die Basis von 100.000 Kategorien aufnehmen, und das wird auch der Fall sein Es hat keinen großen Einfluss auf die Leistung der Klassifizierung und der entsprechende Datensatz wurde ebenfalls als Open Source bereitgestellt. Wenn der Winkel 0 ist, gibt es außerdem unzählige solcher Basisvektoren im Raum, daher muss es wahr sein. Es gibt jedoch keine feste mathematische Lösung für α, Raumdimensionen und die Anzahl solcher Vektoren, nur in einigen Sonderfällen . Antworten finden Sie im Buch „Sparse and Redundant Representations – From Theory to Applications in Signal and Image Processing“. Der Codeteil der Klassifizierungsaufgabe folgt dem Beispiel in der offiziellen Dokumentation von MindSpore. Er kann durch einfaches Ändern des Datensatzes vervollständigt werden, was sehr praktisch ist.

Forschungshintergrund

Das Gebiet der Musterklassifizierung zielt darauf ab, Eingangssignale zwei oder mehr Kategorien zuzuordnen. In den letzten Jahren haben Deep-Learning-Modelle Durchbrüche bei der Verarbeitung von Bildern, Videos, Audio, Text und anderen Daten gebracht. Unterstützt durch rasche Verbesserungen der Hardware können die heutigen Deep-Learning-Methoden problemlos eine Million Bilder aufnehmen und die bisherige Hürde der schlechten Qualität manueller Merkmale bei Musterklassifizierungsaufgaben überwinden. Viele Deep-Learning-basierte Methoden sind entstanden und werden zur Lösung von Klassifizierungsproblemen in verschiedenen Szenarien und Umgebungen eingesetzt, wie z. B. Fernerkundung, Fow-Shot-Learning, Long-Tail-Probleme usw.

Abbildung 1 veranschaulicht einige typische Klassifizierungsaufgabenparadigmen. Derzeit verwenden viele Deep-Learning-Methoden trainierbare, vollständig verbundene Schichten in Kombination mit Softmax als Klassifikatoren. Da die Anzahl der Kategorien jedoch fest ist, weist ein solcher Klassifikator eine schlechte Skalierbarkeit auf, und mit zunehmender Anzahl der Kategorien nimmt auch die Anzahl der trainierbaren Parameter des Klassifikators zu. Beispielsweise Bild steigt der Speicherverbrauch der vollständig verbundenen Schicht mit zunehmender Anzahl der Kategorien N linear an, und auch der Rechenaufwand für die Matrixmultiplikation zwischen der vollständig verbundenen Schicht und d-dimensionalen Merkmalen steigt. Einige auf klassischem metrischem Lernen basierende Methoden müssen alle Trainingsstichproben berücksichtigen und positive/negative Stichprobenpaare entwerfen und dann ein Klassenzentrum für jede Kategorie optimieren, was viele zusätzliche Berechnungen für große Datensätze erfordert, insbesondere für Aufgaben vor dem Training .

Bild

Abbildung 1 Vergleich zwischen typischen Klassifizierungsparadigmen und EBVs

1. Klassifikator endet mit k-way vollständig verbundener Schicht und Softmax. Wenn weitere Kategorien hinzugefügt werden, wachsen die trainierbaren Parameter des Klassifikators linear.

2. Nehmen wir die „Triplet-Einbettung“ als Beispiel für die klassische metrische Lernmethode. Wenn Bild eine neue Kategorie mit Beispielen hinzugefügt wird Bild , erhöht sich die Komplexität auf Bild .

3. Unsere vorgeschlagenen EBVs. EBVs definieren feste normalisierte Einbettungen für verschiedene Kategorien vor. Die trainierbaren Parameter des Netzwerks ändern sich nicht, wenn die Anzahl der Kategorien zunimmt, während die Rechenkomplexität nur Bild von bis zu zunimmt Bild .

Teamvorstellung

Visual Intelligence & Perception (VIP)-Gruppe unter der Leitung von Professor Wei Xushen . Das Team hat in führenden internationalen Fachzeitschriften in verwandten Bereichen wie IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, „Chinese Science: Information Science“ usw. sowie auf führenden internationalen Konferenzen wie NeurIPS, CVPR, veröffentlicht. ICCV, ECCV, IJCAI, AAAI usw. Er hat mehr als fünfzig Artikel veröffentlicht und mit seinen Arbeiten insgesamt sieben Weltmeisterschaften in renommierten internationalen Wettbewerben im Bereich Computer Vision gewonnen, darunter DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 und Apparent Personality Analysis 2016.

Einführung in die Arbeit

In diesem Artikel schlagen wir Gleichwinkelvektorbasen (EBVs) vor, um häufig verwendete Klassifikatoren bei Klassifizierungsaufgaben für tiefe neuronale Netze zu ersetzen. EBVs definiert einen festen normalisierten Basisvektor für alle Kategorien. Die Winkel zwischen diesen Basisvektoren sind gleich und müssen so weit wie möglich zueinander orthogonal sein. Insbesondere definieren EBVs in einer d-dimensionalen Einheitshypersphäre für jede Kategorie in der Klassifizierungsaufgabe eine d-dimensionale normalisierte Einbettung auf der Oberfläche der Hypersphäre. Wir nennen diese Einbettungen Basisvektoren. Der sphärische Abstand jedes Basisvektorpaars erfüllt eine definierte Regel, die die Beziehung zwischen zwei beliebigen Basisvektoren so orthogonal und mit ähnlichen Winkeln wie möglich macht. Um die trainierbaren Parameter des tiefen neuronalen Netzwerks mit zunehmender Anzahl von Kategorien konstant zu halten, stellen wir dann die Definition von EBVs basierend auf den beiden mathematischen Problemen Tammes-Problem und Äquiangularlinien bereit.

Zunächst geben wir eine spezifische Definition von EBVs. Wir wissen, dass d orthogonale Vektorbasen einen d-dimensionalen euklidischen Raum konstruieren können Bild . Wenn zwei Vektoren in einer orthogonalen Beziehung stehen, glauben wir in der Mathematik, dass die beiden Vektoren keine Korrelation haben. Ein solcher d-dimensionaler Raum kann jedoch bis zu d Vektorbasen aufnehmen, d. h. die Anzahl der Kategorien, die er aufnehmen kann Bild , und kann die Anforderungen einer Reduzierung des Speicherplatzes für eine Klassifizierung in großem Maßstab nicht erfüllen. Daher müssen wir die Winkelbeziehung zwischen verschiedenen Vektorbasen optimieren. Nehmen wir an, dass in der Einheitshypersphäre der Winkelbereich von zwei beliebigen Vektorbasen als definiert Bild wird . Suchen Sie für eine gegebene Kategoriemenge N den Mindestwert, der die Bedingungen erfüllt, oder ermitteln Sie für einen akzeptablen Wert den Wertebereich der Kategoriemenge N im Raum, der die Definition von EBVs vervollständigt. Sein mathematischer Ausdruck lässt sich wie folgt zusammenfassen: Finden einer Basismenge von Vektoren mit gleichen Winkeln, die die folgenden Bedingungen erfüllt: Bild Bild Bild Bild Bild Bild

Bild

Darunter repräsentieren und Bild bedeuten Bild die euklidische Norm. Unter der Annahme , dass es sich um eine metrische Funktion des Einheitskugelabstands handelt, kann für jeden abzufragenden Merkmalsvektor seine Korrelation mit der Vektorbasis wie folgt ausgedrückt werden: Bild Bild Bild Bild Bild Bild

Bild

Darunter stellt es die N Basisvektoren im Vektorbasissatz Bild dar . stellt dann die Indizes aller zu berechnenden Basisvektoren dar, ähnlich . Bild Bild Bild

Dann geben wir die Generierungsmethode von EBVs an. Wir initialisieren zufällig eine Matrix, Bild um den Basissatz der Vektoren mit gleichem Winkel darzustellen Bild , wobei d die Dimension jedes Basisvektors darstellt und N die Anzahl der erforderlichen Basisvektoren darstellt. Normalisieren Sie dann Bild jeden d-dimensionalen Basisvektor in, sodass Bild die Summe zweier beliebiger Basisvektoren in Bild als und , und , Bild ausgedrückt werden kann . Auf diese Weise kann der sphärische Abstand von und durch Kosinusähnlichkeit ersetzt werden, ausgedrückt als . Beim stochastischen Gradientenabstieg wird der Gradient jedes zufriedenstellenden Basisvektorpaares durch Gradientenbeschneidung abgeschnitten und die verbleibenden Basisvektorpaare werden gleichzeitig optimiert. Die Gesamtoptimierungsfunktion kann ausgedrückt werden als: Bild Bild Bild Bild Bild Bild Bild Bild Bild

Bild

Das heißt, wenn Bild , wird der entsprechende Gradient abgeschnitten und die Optimierung wird nicht mehr durchgeführt.

Abschließend geben wir eine Optimierungsmethode für EBVs bei Verwendung in Klassifizierungsaufgaben an. Angenommen, N Kategorien enthalten insgesamt Bild Datenproben und ihre entsprechenden Beschriftungen sind Bild , Bild was die Daten darstellt, Bild die die entsprechenden Beschriftungen darstellen. Bild Der entsprechende Merkmalsvektor kann ausgedrückt werden als Bild , wo Bild ein Merkmalsextraktor darstellt, der normalerweise als zu optimierendes tiefes neuronales Netzwerk verstanden werden kann, und Bild die Parameter des zu optimierenden Merkmalsextraktors darstellt. Daher kann die Wahrscheinlichkeit Bild , dass der den Daten entsprechende Merkmalsvektor Bild als Kategorie geschätzt wird, Bild wie folgt ausgedrückt werden:

Bild

Darunter ist die Transponierung des Bild Gewichts der J-ten Kategorie . Bild Im Generierungsprozess von EBVs wurde Bild jeder Basisvektor im Satz Bild reguliert Bild und durch das Kategoriegewicht in Formel (4) ersetzt. Bild Schließlich kann die Zielfunktion zum Erreichen von EBVs erhalten werden:

Bild

Darunter Bild ist die Regularisierung des Bild entsprechenden Merkmalsvektors , ein Hyperparameter, der zur Reduzierung der Optimierungsschwierigkeiten verwendet wird. Dann wird das Optimierungsziel schließlich in die Maximierung der gemeinsamen Verteilungswahrscheinlichkeit umgewandelt . Wo stellt die Verbindungsfunktion dar, die die Wahrscheinlichkeit darstellt , dass der vom Merkmalsextraktor erhaltene Merkmalsvektor als Kategorie betrachtet wird, dann kann das Optimierungsziel als Minimierung umgeschrieben werden Negative Log-Likelihood wie folgt funktionieren: Bild Bild Bild Bild Bild Bild Bild Bild

Bild

Experimentelle Ergebnisse

Wir haben Vergleichsexperimente zu Klassifizierungsaufgaben im ImageNet-1K-Datensatz, Instanzsegmentierungs- und Zielerkennungsaufgaben im MS COCO-Datensatz, semantischer Segmentierung im ADE20K-Datensatz und einer großen Anzahl nachgelagerter Klassifizierungsaufgaben durchgeführt. Hier verwenden wir nur ImageNet-The Die Klassifizierungsergebnisse in 1K dienen als Beispiel, um die Wirksamkeit der Methode zu veranschaulichen. Um die Wirksamkeit der vorgeschlagenen EBVs nachzuweisen, greift unsere Basisvergleichsmethode auf die hochmoderne Trainingsmethode von TorchVision zurück. Wir bieten drei verschiedene Trainingssettings an:

1. Stellen Sie A0 so ein, dass es die Trainingseinstellungen im ursprünglichen ResNet-Text darstellt.

2. Das Festlegen von A1 bedeutet, den Cosinus-Decay-Lernratenplaner zu verwenden und die Aufwärm-Trainingsstrategie zu übernehmen, während gleichzeitig Verbesserungsstrategien wie Gewichtsabnahme und TrivialAugment verwendet werden.

3. Das Setzen von A2 bedeutet das Hinzufügen der drei Strategien 1abel-smoothing, Cutmix und Mixup auf Basis von A1.

Wie in Tabelle 1 gezeigt, zeigen die experimentellen Ergebnisse, dass EBVs unter denselben experimentellen Einstellungen eine größere Verbesserung aufweist als herkömmliche Klassifikatoren.

Tabelle 1 Vergleichsergebnisse für den ImageNet-1K-Validierungssatz

Bild

Zusammenfassung und Ausblick

In diesem Artikel wird ein neues Paradigma für Klassifizierungsaufgaben vorgeschlagen: Equal Angle Vector Bases (EBVs). In tiefen neuronalen Netzen verarbeiten Modelle normalerweise Klassifizierungsaufgaben mit vollständig verbundenen K-Wege-Schichten mit Softmax, und die Lernziele dieser Methoden können als Zuordnung der erlernten Merkmalsdarstellungen zum Etikettenraum der Stichprobe zusammengefasst werden. Bei der metrischen Lernmethode kann das Lernziel als das Erlernen einer Zuordnungsfunktion zusammengefasst werden, um die Trainingsdatenpunkte vom ursprünglichen Raum auf einen neuen Raum abzubilden und dieselben Musterpunkte im Raum näher zu bringen und den Abstand zwischen verschiedenen zu verringern Arten von Punkten wird weiter. Im Gegensatz zu den oben genannten Methoden definieren EBVs vorab einen festen normalisierten Basisvektor für alle Kategorien. Im Vordefinitionsprozess sind die Winkel zwischen diesen Basisvektoren gleich und müssen so weit wie möglich orthogonal zueinander sein. In der Trainingsphase dienen diese Basisvektoren direkt als feste Zuordnungsziele für Stichproben verschiedener Kategorien, und das Lernziel von EBVs ändert sich auch dahingehend, den sphärischen Abstand zwischen der Bildmerkmalseinbettung und den vordefinierten Basisvektoren zu minimieren. Da in der Verifizierungsphase jede Kategorie an einen festen Basisvektor gebunden ist, kann die Beschriftung des Bildes anhand des Mindestwerts des sphärischen Abstands zwischen der Merkmalseinbettung des Bildes und allen Basisvektoren beurteilt werden. Da es sich um ein Klassifizierungsproblem handelt, kann das Training gemäß dem offiziellen Beispielcode von MindSpore sehr schnell abgeschlossen werden.

Paper Essay |. Detaillierte Erklärung der Klassifizierungsleistung von Equal Angle Vector Bases (EBVs) basierend auf Shengsi ist deutlich besser als herkömmliche Klassifikatoren

Ich denke du magst