Top-Version von SAM! Vom Teilen bis zum Wahrnehmen von allem

Autor | PaperWeekly-Herausgeber | Jishi-Plattform

Klicken Sie auf die Karte unten , um dem öffentlichen Konto „ Heart of Autonomous Driving “ zu folgen

ADAS ist jetzt in einer riesigen Menge trockener Informationen verfügbar

Klicken Sie hier, um die technische Austauschgruppe „Herz des autonomen Fahrens [Großmodell]“ zu betreten

Dieser Artikel dient nur der wissenschaftlichen Weitergabe. Bei Verstößen kontaktieren Sie uns bitte, um den Artikel zu löschen.

Einführung

 

Das Visionsteam des Intellectual Property Research Institute hat TAP (Tokenize Anything via Prompting) ins Leben gerufen, ein Basismodell, das sich auf die visuelle Wahrnehmung konzentriert und visuelle Hinweise verwendet, um gleichzeitig die Segmentierungs-, Identifizierungs- und Beschreibungsaufgaben eines beliebigen Bereichs abzuschließen. Aktualisieren Sie das hinweisbasierte Segmentation Everything Basic Model (SAM) auf das Tag Everything Basic Model (TAP), um effizient räumliches Verständnis und semantisches Verständnis für jeden Bereich in einem einzigen visuellen Modell zu erreichen.

Im Bereich Computer Vision gilt die Segmentierung als grundlegendes Element der Wahrnehmung. Durch Segmentierung kann das System verschiedene Objekte im Bild genau lokalisieren und unterscheiden und so die notwendige Grundlage für eine tiefere Wahrnehmung schaffen. Eine umfassende visuelle Wahrnehmung umfasst nicht nur die Bildsegmentierung, sondern auch hochrangige Kognitionen wie semantisches Verständnis und Beziehungsschlussfolgerungen von Objekten und Szenen in Bildern.

Bestehende grundlegende visuelle Segmentierungsmodelle wie SAM und seine Varianten konzentrieren sich auf die primäre Positionierungswahrnehmung wie Formen und Kanten oder stützen sich auf externe Modelle, um fortgeschrittenere semantische Verständnisaufgaben zu erfüllen. Der Übergang zu einer effizienteren visuellen Wahrnehmung erfordert jedoch ein umfassendes visuelles Verständnis in einem einzigen Modell, um ein breiteres Spektrum an Anwendungsszenarien zu ermöglichen, wie etwa autonomes Fahren, Sicherheitsüberwachung, Fernerkundung und medizinische Bildanalyse.

Kürzlich hat das Vision-Team des Intellectual Property Research Institute TAP ( Tokenize Anything via  Prompting ) auf den Markt gebracht, ein Basismodell, das sich auf die visuelle Wahrnehmung konzentriert und visuelle Hinweise verwendet, um gleichzeitig die Segmentierungs-  , Identifizierungs- und Beschreibungsaufgaben eines beliebigen Bereichs abzuschließen. Aktualisieren Sie das hinweisbasierte Segmentation Everything Basic Model (SAM)  auf das Tag Everything Basic Model (TAP)  , um effizient räumliches Verständnis und semantisches Verständnis für jeden Bereich in einem einzigen visuellen Modell zu erreichen. Die relevanten Modelle und Codes sind Open Source und es werden Demotests bereitgestellt. Weitere technische Details finden Sie im TAP-Dokument.

f29055068f8cef115af90e5a73e195f1.png

Papieradresse:

https://arxiv.org/abs/2312.09128

Projektnummer:

https://github.com/baaivision/tokenize-anything

Modelladresse:

https://huggingface.co/BAAI/tokenize-anything

Demo:

https://huggingface.co/spaces/BAAI/tokenize-anything

50af8a5ea8cd1ea9142abc837e14d92e.png

Modelleinführung

1.1 Höhepunkte

Allgemeine Funktionen: TAP ist ein einheitliches grundlegendes visuelles Modell, das Aufforderungen ausführen kann. Es kann gleichzeitig Ziele in jedem Bereich basierend auf visuellen Hinweisen (Punkte, Kästchen, Graffiti) segmentieren, identifizieren und beschreiben und schließlich zu einer Reihe von Ausgaben zusammenfassen, die möglich sind Wird zur umfassenden Auswertung regionaler Inhalte verwendet. Ergebnis.

Universelle Darstellung: TAP stellt den Inhalt in jeder Region als kompakte Masken-Tags und semantische Tags dar. Die Masken-Tags sind für das räumliche Verständnis verantwortlich, und die semantischen Tags sind für das semantische Verständnis verantwortlich. Daher kann das TAP-Modell SAM und CLIP als neues Basismodell für nachgelagerte Anwendungen ersetzen.

Universelles Vortraining: TAP nutzt eine große Anzahl semantikfreier Segmentierungsmasken, um Open-World-Wissen direkt aus dem universellen CLIP-Modell zu beziehen. Dieses neue Paradigma vor dem Training vermeidet die Verwendung voreingenommener manueller Anmerkungen im Zusammenhang mit beliebigen Datensätzen und lindert das Problem widersprüchlicher und unvollständiger Definitionen von Objekten unter offener Semantik.

1.2 Methode

fd1db6ebd412a3e93783b8b5e53a9c27.png

Ein wichtiges Forschungsziel in der visuellen Wahrnehmung ist die effiziente Lokalisierung und Identifizierung jedes interessierenden Bereichs. Dies erfordert ein einziges visuelles Modell mit Hinweisen, das gleichzeitig über die Fähigkeiten zur Segmentierung, Erkennung und Beschreibung verfügt, um den Inhalt in jedem Bereich vollständig zu verstehen. Gleichzeitig kann durch Beobachtung der Mehrwinkelausgabe des Modells (Segmentierung, Erkennung, Textgenerierung) die Verständnisfähigkeit des Modells umfassender bewertet und erklärt werden (Abbildung a).

Bestehende grundlegende Visionsmodelle konzentrieren sich aufgrund ihrer unterschiedlichen Ziele vor dem Training normalerweise auf eine einzige Aufgabe. SAM konzentriert sich beispielsweise auf räumliche Verständnisfähigkeiten und kann Segmentierungsmasken finden, die unabhängig von semantischen Kategorien sind. CLIP und seine verschiedenen Varianten hingegen schneiden beim visuellen semantischen Verständnis gut ab. Daher bietet das Erlernen der semantischen Priorität des CLIP-Modells in der SAM-Architektur eine effektive Möglichkeit für eine umfassende visuelle Wahrnehmung. TAP schlägt auf diesem Weg das folgende Kerndesign vor:

Modellarchitektur: Um ein einheitliches Modell zu implementieren, rüstet TAP den Maskendecoder zu einem allgemeinen Bilddecoder basierend auf der SAM-Architektur auf und gibt gleichzeitig Masken-Tags und semantische Tags aus (Abbildung b). Masken-Tags sind für die Vorhersage von Segmentierungsmasken verantwortlich, und semantische Tags werden verwendet, um entsprechende semantische Beschriftungen und Textbeschreibungen vorherzusagen.

Datenerfassung: Das Training eines multifähigen visionbasierten Modells erfordert einen großen Datensatz mit verschiedenen Anmerkungen. Derzeit gibt es jedoch keine öffentlich verfügbare umfangreiche Datenquelle, die sowohl für die Segmentierung als auch für die Regionserkennung verwendet werden kann. SA-1B erstellte 1,1 Milliarden hochwertige Maskenanmerkungen zum Trainieren grundlegender Segmentierungsmodelle wie SAM. LAION-2B sammelt 2 Milliarden Bild-Text-Paare und wird zum Trainieren von Bild-Text-Ausrichtungsmodellen wie CLIP verwendet.

Um das Problem des Mangels an Segmentierungstext-Ausrichtungsdaten zu lösen, führt TAP den SemanticSA-1B-Datensatz ein (Abbildung c). Dieser Datensatz integriert implizit die Semantik von LAION-2B in die Segmentierungsdaten von SA-1B. Konkret nutzt TAP das EVA-CLIP-Modell mit 5 Milliarden Parametern, die auf dem LAION-2B-Datensatz trainiert wurden, um die Verteilung jeder Segmentierungsregion in SA-1B anhand eines Konzeptvokabulars vorherzusagen. Diese Verteilung bietet eine informationsmaximierende semantische Überwachung und vermeidet das Training des Modells mit zu voreingenommenen Pseudobezeichnungen.

Modelltraining: Das TAP-Modell wird auf dem 256-Block-Cambrian-MLU370-Beschleuniger vorab trainiert, und die parallele Optimierung kann die beiden Aufgaben Segmentierung und Konzeptvorhersage auslösen . Anhand eines Bildes und eines visuellen Hinweises stellt das TAP-Modell den interessierenden Bereich als Masken-Tag und semantisches Tag dar. Basierend auf semantischem Tagging wird ein MLP-Prädiktor erweitert, um offene Vokabularklassifizierungsaufgaben zu erfüllen. Gleichzeitig kann die Erweiterung eines leichten autoregressiven Textdecoders die Aufgabe der Textgenerierung erfüllen.

9d0e99d37c3f5624539d0962ee3a06c0.png

Quantitative Ergebnisse und visuelle Darstellung

Das TAP-Modell erreichte bei der Instanzsegmentierungsaufgabe ohne Stichprobe eine Segmentierungsgenauigkeit nahe SAM (Tabelle 1). Bei der Zero-Shot-LVIS-Instanzerkennungsaufgabe nähert sich die TAP-Leistung dem Basiswert überwachter Erkennungsmodelle (Tabelle 2). Das auf der TAP-Erweiterung basierende 38M-Parameter-„Kleinsprachenmodell“ hat den aktuellen optimalen CIDEr-Benchmark in der Aufgabe zur Beschreibung der visuellen Genomregion erreicht (Tabelle 3), und die Anzahl der Parameter beträgt nur 1 % der vorherigen optimalen Lösung LLAMA-3B.

fce50f775669baf39cd2975c3f97bee2.png 41b1034e9a4203413a5cf7ac39add8f7.png 528ad1daf6b839a3d3da3f8058a12655.png

Klicken oder kritzeln Sie einfach auf das gewünschte Ziel im Bild, und TAP kann automatisch die Segmentierungsmaske, die Kategoriebezeichnung und die entsprechende Textbeschreibung des Zielbereichs generieren, sodass ein Modell gleichzeitig alle Segmentierungen, Klassifizierungen und Bildbeschreibungen durchführen kann.

98c7c8dc468befbf8b0b4cefef188438.jpeg d1948e5476e606840731d2161b1df554.jpeg d7ea4c34325456105eb8cae2fdf59323.jpeg 042345cbd322490db278706dfc24b111.jpeg 61ce073f505465a4763e960a7c90cacd.jpeg 1eee0f28c9cc1531f85fbcabd1983841.jpeg

Für Szenen, die ein Panoramaverständnis erfordern, kann das Modell mithilfe dichter Gitterpunkte als Eingabeaufforderungen alle Ziele in der Szene segmentieren, identifizieren und beschreiben.

da9484eedff011812cd88597c9efa892.jpeg af8138b9a49ec06fed0885662c0652b3.jpeg

Verweise

[1] Alexander Kirillov et al. Segmentieren Sie alles. ICCV, 2023.

[2] Alec Radford et al. Erlernen übertragbarer visueller Modelle aus der Überwachung natürlicher Sprache. ICML, 2021.

[3] Sun et al. EVA-CLIP: Verbesserte Trainingstechniken für CLIP im großen Maßstab. arXiv:2303.15389, 2023.

[4] Schuhmann et al. LAION-5B: Ein offener umfangreicher Datensatz zum Training von Bild-Text-Modellen der nächsten Generation. arXiv:2210.08402, 2023.

Der beitragende Autor ist ein besonderer Gast von „ Autonomous Driving Heart Knowledge Planet “, willkommen zum Austausch!

① Exklusive Videokurse im gesamten Netzwerk

BEV-Wahrnehmung , Millimeterwellenradar-Vision-Fusion , Multisensor-Kalibrierung , Multisensor-Fusion , multimodale 3D-Zielerkennung , Spurlinienerkennung , Flugbahnvorhersage , hochpräzise Online-Karte , Weltmodell , Punktwolken-3D-Zielerkennung , Zielverfolgung , Belegung, CUDA- und TensorRT-Modellbereitstellung , große Modelle und autonomes Fahren , Nerf , semantische Segmentierung , autonome Fahrsimulation, Sensoreinsatz, Entscheidungsplanung, Flugbahnvorhersage und andere Lernvideos ( zum Lernen den QR-Code scannen )

3330f72e51196bcc930142b17d162d69.png Offizielle Video-Website: www.zdjszx.com

② Die erste Lerngemeinschaft für autonomes Fahren in China

Eine Kommunikationsgemeinschaft von fast 2.400 Personen mit mehr als 30 Lernrouten zum Technologie-Stack für autonomes Fahren. Möchten Sie mehr über die Wahrnehmung des autonomen Fahrens erfahren (2D-Erkennung, Segmentierung, 2D/3D-Spurlinien, BEV-Wahrnehmung, 3D-Zielerkennung, Belegung, Multisensor). Fusion, technische Lösungen in den Bereichen Multisensorkalibrierung, Zielverfolgung, optische Flussschätzung), Positionierung und Kartierung beim autonomen Fahren (SLAM, hochpräzise Karten, lokale Online-Karten), autonome Fahrplanungssteuerung/Trajektorienvorhersage, Einsatz von KI-Modellen und Umsetzung, Branchentrends, Stellenausschreibungen werden veröffentlicht. Willkommen beim Scannen des QR-Codes unten und Treten Sie dem Wissensplaneten des Herzens des autonomen Fahrens bei. Dies ist ein wirklich informativer Ort, an dem Sie mit Branchenführern über verschiedene Probleme im Zusammenhang mit dem Einstieg kommunizieren können , Studieren, Arbeiten und Job-Hopping, und tauschen Sie täglich Papiere und Code aus. +Video , freue mich auf die Kommunikation!

683fba3d9db352e53f8decdbe5adc492.png

③【Herz des autonomen Fahrens】Technische Austauschgruppe

The Heart of Autonomous Driving ist die erste Entwicklergemeinschaft für autonomes Fahren, die sich auf Zielerkennung, semantische Segmentierung, Panoramasegmentierung, Instanzsegmentierung, Schlüsselpunkterkennung, Fahrspurlinien, Zielverfolgung, 3D-Zielerkennung, BEV-Wahrnehmung, multimodale Wahrnehmung und Belegung konzentriert , Multisensorfusion, Transformator, großes Modell, Punktwolkenverarbeitung, durchgängiges autonomes Fahren, SLAM, optische Flussschätzung, Tiefenschätzung, Flugbahnvorhersage, hochpräzise Karte, NeRF, Planungssteuerung, Modellbereitstellung und -implementierung, Simulationstests für autonomes Fahren, Produktmanager, Hardwarekonfiguration, KI-Jobsuchbörsen usw. Scannen Sie den QR-Code, um eine Autobot Assistant WeChat-Einladung zum Beitritt zur Gruppe hinzuzufügen. Hinweis: Schule/Firma + Richtung + Spitzname (schneller Weg, der Gruppe beizutreten)

5673a293a205b4f57372e4590681ec8b.jpeg

④【Herz des autonomen Fahrens】Plattformmatrix, willkommen, uns zu kontaktieren!

5905c280a527318648c77c503515e725.jpeg

おすすめ

転載: blog.csdn.net/CV_Autobot/article/details/135376713