Paper Essay |. Detaillierte Erklärung der Klassifizierungsleistung von Equal Angle Vector Bases (EBVs) basierend auf Shengsi ist deutlich besser als herkömmliche Klassifikatoren

**Autor:** Li Ruifeng

Papiertitel

Gleichwinklige Basisvektoren

Papierquelle

CVPR 2023

Link zum Papier

https://arxiv.org/abs/2303.11637

Code-Link

https://github.com/msfuxian/EBV

Als Open-Source-KI-Framework bietet MindSpore Industrie, Universitätsforschung und Entwicklern ein umfassendes Szenario für die Zusammenarbeit zwischen Geräten, Edge und Cloud, minimalistische Entwicklung, ultimative Leistung, extrem umfangreiches KI-Vortraining, minimalistische Entwicklung sowie eine sichere und vertrauenswürdige Lösung Erfahrung, 2020.3.28 Open Source hat mehr als 5 Millionen Downloads unterstützt, ist in die Lehre von über 100 Universitäten eingestiegen und ist über HMS auf über 5000 Apps erhältlich Entwickler und ist in den Bereichen KI-Rechenzentrum, Finanzen, intelligente Fertigung, Finanzen, Cloud, Wireless, Datenkommunikation, Energie, Verbraucher 1+8+N, intelligente Autos und andere End-Edge-Cloud-Autoszenarien weit verbreitet verwendet und ist die Open-Source-Software mit dem höchsten Gitee-Index. Jeder ist herzlich willkommen, an Open-Source-Beiträgen, Kits, Model-Crowd-Intelligence, Brancheninnovationen und -anwendungen, Algorithmusinnovationen, akademischer Zusammenarbeit, KI-Buchkooperation usw. teilzunehmen und Ihre Anwendungsfälle auf der Cloud-Seite, Geräteseite, Edge-Seite und anderen beizutragen Sicherheitsbereiche.

Mit der umfassenden Unterstützung von SunSilicon MindSpore aus der wissenschaftlichen und technologischen Gemeinschaft, der akademischen Welt und der Industrie machten KI-Artikel, die auf SunSilicon MindSpore basieren, im Jahr 2023 7 % aller KI-Frameworks aus und belegten damit zwei Jahre in Folge den zweiten Platz weltweit. Vielen Dank an CAAI und alle Universitäten Mit der Unterstützung der Lehrkräfte werden wir weiterhin hart zusammenarbeiten, um KI-Forschung und -Innovation zu betreiben. Die MindSpore-Community unterstützt die Forschung zu erstklassigen Konferenzbeiträgen und erstellt weiterhin originelle KI-Ergebnisse. Ich werde gelegentlich einige hervorragende Artikel zur Förderung und Interpretation auswählen. Ich hoffe, dass mehr Experten aus Industrie, Wissenschaft und Forschung mit MindSpore zusammenarbeiten, um die ursprüngliche KI-Forschung zu fördern. Dieser Artikel ist von Shengsi MindSpore. Für den 17. Artikel der AI-Konferenzpapierreihe habe ich mich entschieden, einen Artikel des Teams von Dr. Wei Xiushen von der School of Computer Science and Engineering der Nanjing University of Science and Technology zu interpretieren Ich möchte mich bei allen Experten, Professoren und Kommilitonen für ihre Beiträge bedanken.

MindSpore zielt darauf ab, drei Hauptziele zu erreichen: einfache Entwicklung, effiziente Ausführung und vollständige Szenarioabdeckung. Durch die Nutzungserfahrung entwickelt sich MindSpore, ein Deep-Learning-Framework, schnell weiter und das Design seiner verschiedenen APIs wird ständig in eine vernünftigere, vollständigere und leistungsfähigere Richtung optimiert. Darüber hinaus unterstützen verschiedene Entwicklungstools, die ständig aus Shengsi hervorgehen, dieses Ökosystem dabei, komfortablere und leistungsfähigere Entwicklungsmethoden zu erstellen, wie z. B. MindSpore Insight, das die Modellarchitektur in Form eines Diagramms darstellen und auch verschiedene Aspekte dynamisch überwachen kann Änderungen an Indikatoren und Parametern machen den Entwicklungsprozess komfortabler.

Das Problem, das dieser Artikel untersuchen möchte, ist das Klassifizierungsproblem großer Kategorien, beispielsweise Klassifizierungsprobleme von 100.000 oder 1 Million Kategorien. Für ein Netzwerk wie ResNet-50 erfordert die letzte lineare Schicht zur Bewältigung eines solchen Klassifizierungsproblems eine Parametermenge von 2048 × 100000 oder 2048 × 1000000, wodurch fc größer wird als die Parametermenge der vorherigen Merkmalsextraktionsschicht.

Andererseits wählen allgemeine Klassifizierungsprobleme One-Hot-Vektoren als Beschriftungen, die als orthogonale Basis verstanden werden können, bei der der Winkel zwischen zwei beliebigen Vektoren 90 Grad beträgt. Ende 2021 gab es im Annual Journal of Mathematics einen Artikel, der besagte, dass, wenn die Dimension D für einen gegebenen Winkel gegen Unendlich tendiert, die Anzahl der oben genannten Geraden mit gleichen Winkeln linear mit D zusammenhängt ( siehe Gleichwinklige Linien mit festem Winkel).

Wenn also die Winkel völlig gleich sind, ist die Anzahl der Kategorien groß und D muss ebenfalls groß sein. Die Idee am Anfang dieses Artikels besteht also darin, einige Optimierungen am Winkel vorzunehmen. Wenn der Winkel grob auf 83-97 (Achsensymmetrie) beschränkt ist, können 5000 Dimensionen die Basis von 100.000 Kategorien aufnehmen, und das wird auch der Fall sein Es hat keinen großen Einfluss auf die Leistung der Klassifizierung und der entsprechende Datensatz wurde ebenfalls als Open Source bereitgestellt. Wenn der Winkel 0 ist, gibt es außerdem unzählige solcher Basisvektoren im Raum, daher muss es wahr sein. Es gibt jedoch keine feste mathematische Lösung für α, Raumdimensionen und die Anzahl solcher Vektoren, nur in einigen Sonderfällen . Antworten finden Sie im Buch „Sparse and Redundant Representations – From Theory to Applications in Signal and Image Processing“. Der Codeteil der Klassifizierungsaufgabe folgt dem Beispiel in der offiziellen Dokumentation von MindSpore. Er kann durch einfaches Ändern des Datensatzes vervollständigt werden, was sehr praktisch ist.

01

Forschungshintergrund

Das Gebiet der Musterklassifizierung zielt darauf ab, Eingangssignale zwei oder mehr Kategorien zuzuordnen. In den letzten Jahren haben Deep-Learning-Modelle Durchbrüche bei der Verarbeitung von Bildern, Videos, Audio, Text und anderen Daten gebracht. Unterstützt durch rasche Verbesserungen der Hardware können die heutigen Deep-Learning-Methoden problemlos eine Million Bilder aufnehmen und die bisherige Hürde der schlechten Qualität manueller Merkmale bei Musterklassifizierungsaufgaben überwinden. Viele Deep-Learning-basierte Methoden sind entstanden und werden zur Lösung von Klassifizierungsproblemen in verschiedenen Szenarien und Umgebungen eingesetzt, wie z. B. Fernerkundung, Fow-Shot-Learning, Long-Tail-Probleme usw.

Abbildung 1 veranschaulicht einige typische Klassifizierungsaufgabenparadigmen. Derzeit verwenden viele Deep-Learning-Methoden trainierbare, vollständig verbundene Schichten in Kombination mit Softmax als Klassifikatoren. Da die Anzahl der Kategorien jedoch fest ist, weist ein solcher Klassifikator eine schlechte Skalierbarkeit auf, und mit zunehmender Anzahl der Kategorien nimmt auch die Anzahl der trainierbaren Parameter des Klassifikators zu. Beispielsweise Bildsteigt der Speicherverbrauch der vollständig verbundenen Schicht mit zunehmender Anzahl der Kategorien N linear an, und auch der Rechenaufwand für die Matrixmultiplikation zwischen der vollständig verbundenen Schicht und d-dimensionalen Merkmalen steigt. Einige auf klassischem metrischem Lernen basierende Methoden müssen alle Trainingsstichproben berücksichtigen und positive/negative Stichprobenpaare entwerfen und dann ein Klassenzentrum für jede Kategorie optimieren, was viele zusätzliche Berechnungen für große Datensätze erfordert, insbesondere für Aufgaben vor dem Training .

Bild

Abbildung 1 Vergleich zwischen typischen Klassifizierungsparadigmen und EBVs

1. Klassifikator endet mit k-way vollständig verbundener Schicht und Softmax. Wenn weitere Kategorien hinzugefügt werden, wachsen die trainierbaren Parameter des Klassifikators linear.

2. Nehmen wir die „Triplet-Einbettung“ als Beispiel für die klassische metrische Lernmethode. Wenn Bildeine neue Kategorie mit Beispielen hinzugefügt wird Bild, erhöht sich die Komplexität auf Bild.

3. Unsere vorgeschlagenen EBVs. EBVs definieren feste normalisierte Einbettungen für verschiedene Kategorien vor. Die trainierbaren Parameter des Netzwerks ändern sich nicht, wenn die Anzahl der Kategorien zunimmt, während die Rechenkomplexität nur Bildvon bis zu zunimmt Bild.

02

Teamvorstellung

Visual Intelligence & Perception (VIP)-Gruppe unter der Leitung von Professor Wei Xushen . Das Team hat in führenden internationalen Fachzeitschriften in verwandten Bereichen wie IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, „Chinese Science: Information Science“ usw. sowie auf führenden internationalen Konferenzen wie NeurIPS, CVPR, veröffentlicht. ICCV, ECCV, IJCAI, AAAI usw. Er hat mehr als fünfzig Artikel veröffentlicht und mit seinen Arbeiten insgesamt sieben Weltmeisterschaften in renommierten internationalen Wettbewerben im Bereich Computer Vision gewonnen, darunter DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 und Apparent Personality Analysis 2016.

03

Einführung in die Arbeit

In diesem Artikel schlagen wir Gleichwinkelvektorbasen (EBVs) vor, um häufig verwendete Klassifikatoren bei Klassifizierungsaufgaben für tiefe neuronale Netze zu ersetzen. EBVs definiert einen festen normalisierten Basisvektor für alle Kategorien. Die Winkel zwischen diesen Basisvektoren sind gleich und müssen so weit wie möglich zueinander orthogonal sein. Insbesondere definieren EBVs in einer d-dimensionalen Einheitshypersphäre für jede Kategorie in der Klassifizierungsaufgabe eine d-dimensionale normalisierte Einbettung auf der Oberfläche der Hypersphäre. Wir nennen diese Einbettungen Basisvektoren. Der sphärische Abstand jedes Basisvektorpaars erfüllt eine definierte Regel, die die Beziehung zwischen zwei beliebigen Basisvektoren so orthogonal und mit ähnlichen Winkeln wie möglich macht. Um die trainierbaren Parameter des tiefen neuronalen Netzwerks mit zunehmender Anzahl von Kategorien konstant zu halten, stellen wir dann die Definition von EBVs basierend auf den beiden mathematischen Problemen Tammes-Problem und Äquiangularlinien bereit.

Zunächst geben wir eine spezifische Definition von EBVs. Wir wissen, dass d orthogonale Vektorbasen einen d-dimensionalen euklidischen Raum konstruieren können Bild. Wenn zwei Vektoren in einer orthogonalen Beziehung stehen, glauben wir in der Mathematik, dass die beiden Vektoren keine Korrelation haben. Ein solcher d-dimensionaler Raum kann jedoch bis zu d Vektorbasen aufnehmen, d. h. die Anzahl der Kategorien, die er aufnehmen kann Bild, und kann die Anforderungen einer Reduzierung des Speicherplatzes für eine Klassifizierung in großem Maßstab nicht erfüllen. Daher müssen wir die Winkelbeziehung zwischen verschiedenen Vektorbasen optimieren. Nehmen wir an, dass in der Einheitshypersphäre der Winkelbereich von zwei beliebigen Vektorbasen als definiert Bildwird . Suchen Sie für eine gegebene Kategoriemenge N den Mindestwert, der die Bedingungen erfüllt, oder ermitteln Sie für einen akzeptablen Wert den Wertebereich der Kategoriemenge N im Raum, der die Definition von EBVs vervollständigt. Sein mathematischer Ausdruck lässt sich wie folgt zusammenfassen: Finden einer Basismenge von Vektoren mit gleichen Winkeln, die die folgenden Bedingungen erfüllt:BildBildBildBildBildBild

Bild

Darunter repräsentieren und Bildbedeuten Bilddie euklidische Norm. Unter der Annahme , dass es sich um eine metrische Funktion des Einheitskugelabstands handelt, kann für jeden abzufragenden Merkmalsvektor seine Korrelation mit der Vektorbasis wie folgt ausgedrückt werden:BildBildBildBildBildBild

Bild

Darunter stellt es die N Basisvektoren im Vektorbasissatz Bilddar . stellt dann die Indizes aller zu berechnenden Basisvektoren dar, ähnlich .BildBildBild

Dann geben wir die Generierungsmethode von EBVs an. Wir initialisieren zufällig eine Matrix, Bildum den Basissatz der Vektoren mit gleichem Winkel darzustellen Bild, wobei d die Dimension jedes Basisvektors darstellt und N die Anzahl der erforderlichen Basisvektoren darstellt. Normalisieren Sie dann Bildjeden d-dimensionalen Basisvektor in, sodass Bilddie Summe zweier beliebiger Basisvektoren in Bildals und , und Bildausgedrückt werden kann . Auf diese Weise kann der sphärische Abstand von und durch Kosinusähnlichkeit ersetzt werden, ausgedrückt als . Beim stochastischen Gradientenabstieg wird der Gradient jedes zufriedenstellenden Basisvektorpaares durch Gradientenbeschneidung abgeschnitten und die verbleibenden Basisvektorpaare werden gleichzeitig optimiert. Die Gesamtoptimierungsfunktion kann ausgedrückt werden als:BildBildBildBildBildBildBildBildBild

Bild

Das heißt, wenn Bild, wird der entsprechende Gradient abgeschnitten und die Optimierung wird nicht mehr durchgeführt.

Abschließend geben wir eine Optimierungsmethode für EBVs bei Verwendung in Klassifizierungsaufgaben an. Angenommen, N Kategorien enthalten insgesamt BildDatenproben und ihre entsprechenden Beschriftungen sind Bild, Bildwas die Daten darstellt, Bilddie die entsprechenden Beschriftungen darstellen. BildDer entsprechende Merkmalsvektor kann ausgedrückt werden als Bild, wo Bildein Merkmalsextraktor darstellt, der normalerweise als zu optimierendes tiefes neuronales Netzwerk verstanden werden kann, und Bilddie Parameter des zu optimierenden Merkmalsextraktors darstellt. Daher kann die Wahrscheinlichkeit Bild, dass der den Daten entsprechende Merkmalsvektor Bildals Kategorie geschätzt wird, Bildwie folgt ausgedrückt werden:

Bild

Darunter ist die Transponierung des BildGewichts der J-ten Kategorie . BildIm Generierungsprozess von EBVs wurde Bildjeder Basisvektor im Satz Bildreguliert Bildund durch das Kategoriegewicht in Formel (4) ersetzt. BildSchließlich kann die Zielfunktion zum Erreichen von EBVs erhalten werden:

Bild

Darunter Bildist die Regularisierung des Bildentsprechenden Merkmalsvektors , ein Hyperparameter, der zur Reduzierung der Optimierungsschwierigkeiten verwendet wird. Dann wird das Optimierungsziel schließlich in die Maximierung der gemeinsamen Verteilungswahrscheinlichkeit umgewandelt . Wo stellt die Verbindungsfunktion dar, die die Wahrscheinlichkeit darstellt , dass der vom Merkmalsextraktor erhaltene Merkmalsvektor als Kategorie betrachtet wird, dann kann das Optimierungsziel als Minimierung umgeschrieben werden Negative Log-Likelihood wie folgt funktionieren:BildBildBildBildBildBildBildBild

Bild

04

Experimentelle Ergebnisse

Wir haben Vergleichsexperimente zu Klassifizierungsaufgaben im ImageNet-1K-Datensatz, Instanzsegmentierungs- und Zielerkennungsaufgaben im MS COCO-Datensatz, semantischer Segmentierung im ADE20K-Datensatz und einer großen Anzahl nachgelagerter Klassifizierungsaufgaben durchgeführt. Hier verwenden wir nur ImageNet-The Die Klassifizierungsergebnisse in 1K dienen als Beispiel, um die Wirksamkeit der Methode zu veranschaulichen. Um die Wirksamkeit der vorgeschlagenen EBVs nachzuweisen, greift unsere Basisvergleichsmethode auf die hochmoderne Trainingsmethode von TorchVision zurück. Wir bieten drei verschiedene Trainingssettings an:

1. Stellen Sie A0 so ein, dass es die Trainingseinstellungen im ursprünglichen ResNet-Text darstellt.

2. Das Festlegen von A1 bedeutet, den Cosinus-Decay-Lernratenplaner zu verwenden und die Aufwärm-Trainingsstrategie zu übernehmen, während gleichzeitig Verbesserungsstrategien wie Gewichtsabnahme und TrivialAugment verwendet werden.

3. Das Setzen von A2 bedeutet das Hinzufügen der drei Strategien 1abel-smoothing, Cutmix und Mixup auf Basis von A1.

Wie in Tabelle 1 gezeigt, zeigen die experimentellen Ergebnisse, dass EBVs unter denselben experimentellen Einstellungen eine größere Verbesserung aufweist als herkömmliche Klassifikatoren.

Tabelle 1 Vergleichsergebnisse für den ImageNet-1K-Validierungssatz

Bild

05

Zusammenfassung und Ausblick

In diesem Artikel wird ein neues Paradigma für Klassifizierungsaufgaben vorgeschlagen: Equal Angle Vector Bases (EBVs). In tiefen neuronalen Netzen verarbeiten Modelle normalerweise Klassifizierungsaufgaben mit vollständig verbundenen K-Wege-Schichten mit Softmax, und die Lernziele dieser Methoden können als Zuordnung der erlernten Merkmalsdarstellungen zum Etikettenraum der Stichprobe zusammengefasst werden. Bei der metrischen Lernmethode kann das Lernziel als das Erlernen einer Zuordnungsfunktion zusammengefasst werden, um die Trainingsdatenpunkte vom ursprünglichen Raum auf einen neuen Raum abzubilden und dieselben Musterpunkte im Raum näher zu bringen und den Abstand zwischen verschiedenen zu verringern Arten von Punkten wird weiter. Im Gegensatz zu den oben genannten Methoden definieren EBVs vorab einen festen normalisierten Basisvektor für alle Kategorien. Im Vordefinitionsprozess sind die Winkel zwischen diesen Basisvektoren gleich und müssen so weit wie möglich orthogonal zueinander sein. In der Trainingsphase dienen diese Basisvektoren direkt als feste Zuordnungsziele für Stichproben verschiedener Kategorien, und das Lernziel von EBVs ändert sich auch dahingehend, den sphärischen Abstand zwischen der Bildmerkmalseinbettung und den vordefinierten Basisvektoren zu minimieren. Da in der Verifizierungsphase jede Kategorie an einen festen Basisvektor gebunden ist, kann die Beschriftung des Bildes anhand des Mindestwerts des sphärischen Abstands zwischen der Merkmalseinbettung des Bildes und allen Basisvektoren beurteilt werden. Da es sich um ein Klassifizierungsproblem handelt, kann das Training gemäß dem offiziellen Beispielcode von MindSpore sehr schnell abgeschlossen werden.

Ein in den 1990er Jahren geborener Programmierer hat eine Videoportierungssoftware entwickelt und in weniger als einem Jahr über 7 Millionen verdient. Das Ende war sehr bestrafend! Google bestätigte Entlassungen, die den „35-jährigen Fluch“ chinesischer Programmierer in den Flutter-, Dart- und Teams- Python mit sich brachten stark und wird von GPT-4.5 vermutet; Tongyi Qianwen Open Source 8 Modelle Arc Browser für Windows 1.0 in 3 Monaten offiziell GA Windows 10 Marktanteil erreicht 70 %, Windows 11 GitHub veröffentlicht weiterhin KI-natives Entwicklungstool GitHub Copilot Workspace JAVA ist die einzige starke Abfrage, die OLTP+OLAP verarbeiten kann. Dies ist das beste ORM. Wir treffen uns zu spät.
{{o.name}}
{{m.name}}

Ich denke du magst

Origin my.oschina.net/u/4736317/blog/11072544
Empfohlen
Rangfolge