ImageBind, MetaAI Open-Source-Modell für 6 verschiedene Modalitäten (Bild, Text, Audio, Tiefe, Temperatur und IMU-Daten)

MetaAI, der junge Mann, der im Metaversum und Web 3.0 zerschlagen wurde, schwingt jetzt das Open-Source-Schwert im AIGC-Bereich, um das Quartett zu töten!

Allein in den letzten Monaten hat MetaAI viele nützliche Projekte auf GitHub als Open Source bereitgestellt:

- Segment Anything (SAM), das alle Elemente in einem Bild oder Video automatisch segmentieren kann, die automatische Segmentierung mit einem Klick abschließt und die Übertragung von Nullproben auf andere Segmentierungsaufgaben unterstützt.

- DINOv2 erhält ohne Feinabstimmung visuelle Merkmale durch Selbstüberwachung und fördert so direkt den Fortschritt der Computer-Vision-Technologie.

- Animierte Zeichnungen, die KI-Funktionen nutzen, um Gemälden schnell Animationseffekte hinzuzufügen.

Die Liste geht weiter und weiter.

Heute hat Meta einen weiteren Schritt unternommen und offiziell das Open-Source- ImageBind angekündigt , das es dem Modell ermöglicht, über 6 verschiedene Modalitäten (Bild, Text, Audio, Tiefe, Temperatur und IMU-Daten) zu kommunizieren!

Hier ist ein Video, das Zuckerberg vor einigen Tagen auf Facebook veröffentlicht hat, damit Sie intuitiv spüren können, wie leistungsfähig ImageBind ist:

GitHub: https://github.com/facebookresearch/ImageBind

Wie ich bereits sagte, nähern sich KI-Modelle mit jeder unterstützten Modalität den menschenähnlichen Fähigkeiten an.

Wir können die belebten Straßen sehen, das Pfeifen auf der Straße hören und den heißen Sommer spüren – all das kommt ausnahmslos den angeborenen Sinnesfähigkeiten des Menschen zugute.

Hören, Riechen, Schmecken, Sehen und andere Fähigkeiten ermöglichen es uns, besser mit der Welt zu interagieren.

Wenn wir die Fähigkeiten der KI dem Menschen näher bringen wollen, müssen wir der KI mehr Fähigkeiten verleihen, damit sie die Welt besser wahrnehmen kann.

Um eine Suchassoziation zwischen verschiedenen Modalitäten zu erreichen, war es in der Vergangenheit notwendig, mehrere Kopien von Daten gleichzeitig zu pflegen und zu trainieren.

Mit ImageBind können Bilder jetzt direkt aus Audio generiert werden. Wenn Sie beispielsweise für die KI das Geräusch von Meereswellen hören, können direkt Bilder des Meeres generiert werden, was eine Menge Schulungskosten spart.

Aus Sicht der Schnittstelle ist KI wie ein Mensch, der anhand des Tons beginnen kann, ein Bild zu erstellen.

Darüber hinaus verfügt ImageBind über integrierte 3D-Wahrnehmungs- und IMU-Sensoren, mit denen Beschleunigung und Rotationsbewegung gemessen werden können, sodass die KI die Veränderungen in unserer physischen Welt spüren kann.

Darüber hinaus bietet ImageBind auch eine neue Art von Rich-Memory-Retrieval-Methode, die es der KI ermöglicht, die kombinierten Daten aus Text, Audio und Bildern direkt zu verwenden, um direkt nach Bildern, Videos, Audiodateien oder Textnachrichten zu suchen.

Auf diese Weise können wir es früheren AIGC-Anwendungen ermöglichen, qualitativ hochwertigere Inhalte zu generieren.

Wenn es beispielsweise auf den Bereich der Videobearbeitung angewendet wird, kann KI basierend auf dem von uns bereitgestellten Ton, Bild und Text direkt nach Videoclips mit einem höheren Übereinstimmungsgrad suchen und so die echte Ein-Klick-Videobearbeitungsfunktion realisieren!

In herkömmlichen KI-Systemen verfügt jede Modalität über eine spezifische Einbettung (einen numerischen Datenvektor und seine Beziehung beim maschinellen Lernen).

Dies macht es schwierig, zwischen verschiedenen Modalitäten zu interagieren und sie abzurufen, und wir können zusammengehörige Bilder und Videos nicht direkt basierend auf Audio präzise abrufen.

ImageBind kann dies jedoch. Es ermöglicht eine modalübergreifende Recherche, indem die Einbettungen der sechs Modalitäten in einem gemeinsamen Raum ausgerichtet werden.

Als multimodales Modell integriert ImageBind das oben erwähnte SAM und DINOv2, sodass seine eigenen Fähigkeiten vollständig verbessert wurden.

Die von ImageBind implementierte Kernfunktion besteht darin, verschiedene Modalitäten miteinander zu verbinden, um eine Brücke für eine nahtlose Kommunikation zu bauen.

Das zuvor von MetaAI entwickelte Make-A-Scene-Tool kann Bilder aus Text generieren.

Mit Hilfe von ImageBind können Sie jetzt Bilder direkt über Ton erzeugen. Dies ermöglicht es der KI, die menschlichen Emotionen besser zu verstehen, ihre Emotionen zu verstehen und dann bessere Dienste für die Menschen bereitzustellen.

Gleichzeitig wird die Verbesserung der Fähigkeiten jeder Modalität basierend auf den modalübergreifenden Kommunikationsfähigkeiten von ImageBind auch den Fortschritt einer anderen Modalität vorantreiben und dann einen schneeballähnlichen Effekt erzielen.

Um dies zu überprüfen, führte das technische Team von MetaAI auch einen Benchmark-Test durch und stellte fest, dass ImageBind in Bezug auf Audio und Tiefe, die aus den von der KI aufgenommenen und zusammengefassten Erfahrungen anderer Modalitäten abgeleitet werden, deutlich besser ist als andere professionelle Modelle.

Derzeit ist absehbar, dass die Videobearbeitung in Zukunft immer einfacher wird.

Wenn Sie Ihr Telefon heben und ein Video eines Sonnenuntergangs am Meer aufnehmen, kann die KI automatisch Texte und Untertitel basierend auf dem Inhalt des Videos erstellen und diese mit passender Hintergrundmusik abgleichen.

Es ist der KI sogar möglich, über einen Song direkt eine Video-MV für den Sänger zu generieren.

In VR- und AR-Spielen können Benutzer auch über verschiedene Stimmen, Gesten und Kopfbewegungen mit Spielcharakteren interagieren, um die Interaktivität und das Eintauchen in das Spiel zu verbessern.

Im medizinischen Bereich können Ärzte die Zustandsinformationen von Patienten mithilfe verschiedener Methoden wie Sprache und Bildern sammeln und diese dann mithilfe von maschinellem Lernen und anderen Technologien verarbeiten und analysieren, um genauere Diagnoseergebnisse und Behandlungspläne zu erhalten.

Obwohl ImageBind derzeit nur über 6 Modi verfügt, werden durch die Integration weiterer sensorischer Funktionen wie Geruch und Berührung die Fähigkeiten des KI-Modells stärker und die AIGC-Industrie wird auch weltbewegende Veränderungen einleiten.

Das Aufkommen dieses Projekts wird die AIGC-Technologie in ein breiteres Spektrum von Anwendungsszenarien bringen, und eine große Welle interessanterer und praktischerer KI-Projekte steht bald bevor.

Ich denke du magst

Origin blog.csdn.net/qq_41771998/article/details/130618624
Empfohlen
Rangfolge