CloudWalk veröffentlicht eine große Produktbasis und bricht mehrere Weltrekorde

In jüngster Zeit hat CloudWalk Technology wichtige Fortschritte bei der Multimodalität des Großmodells gemacht. Das produktbasierte Großmodell wurde von Baidu, Kuaishou, JD.com, OPPO usw. bezogen. Eine bekannte Universität, Unternehmen und Forschungseinrichtung stachen hervor und stellten einen neuen Weltrekord auf.

Derzeit liegt die durchschnittliche durchschnittliche Präzision (Mean Average Precision, mAP) der Top 10 im Product1M-Datensatz des Commodity-Basismodells von Cloudwalk bei 87,68 %, was 2 % über dem bisherigen besten Ergebnis (State Of The Art, SOTA) liegt ).

Tabelle 1. Die Leistung des ruhigen multimodalen großen Modells auf Product1M

 

Die durchschnittliche Rückrufrate (mittlerer Rückruf) bei der MUGE-E-Commerce-Bild-Text-Abrufaufgabe erreichte 90,77 %, was 0,76 % höher ist als das vorherige beste Ergebnis. Das Modell ruft nur Produktbilder basierend auf dem Abfragetext mit einem Durchschnitt ab und erinnert sich daran Länge von 5.

Tabelle 2. Leistung ruhiger multimodaler großer Modelle beim MUGE-Retrieval

 

Branchenführende Technologie. Effizientes Training ohne Kennzeichnung

Bei den Trainingsdaten bestehender multimodaler Grafik-Text-Vortrainingsschemata handelt es sich hauptsächlich um Grafik-Text-Paardaten. Multimodale Daten in realen Szenen sind jedoch nicht auf einfache Grafik-Text-Paare beschränkt, sondern verfügen auch über mehrdimensionale Informationsquellen, dh mehrere -Quelleninformationen. Am Beispiel des Produktsuchszenarios umfassen Multi-Source-Informationen mehrdimensionale und multimodale Informationen im Textmodus (Sucheingabe, Szenentext, Texttitel, Kategoriebezeichnung) und im visuellen Modus (Warenkarte, gleiche Artikelbezeichnung). Multiquellen enthalten reichhaltige semantische Assoziationen, die ein großes Mining-Potenzial und einen großen Anwendungswert haben. Bei Wareninformationen aus mehreren Quellen besteht jedoch in der Regel das Problem des Mangels an Modalinformationen, was eine große Herausforderung für die Anwendung der Modalmodellierung von Informationen aus mehreren Quellen darstellt.

Das Aufkommen des allgemeinen multimodalen Großmodells ermöglicht es jedem, die leistungsstarke Verständnisfähigkeit des multimodalen Großmodells und die Generalisierungsfähigkeit auf jede Szene zu erkennen. Durch die Anhäufung einer großen Menge an Produktdaten und die Integration umfangreicher Internet-Produktdaten hat CloudWalk einen umfangreichen Produktdatensatz mit einer milliardenschweren Produktbibliothek aufgebaut.

Basierend auf einem umfangreichen Produktdatensatz unter Verwendung kontrastiver Lern- und selbstüberwachter Lernparadigmen schlägt CloudWalk Produkte vor, die Produkttextmodalitäten (Kategoriebezeichnungen, Attributbezeichnungen, Suchbeschreibungen) und visuelle Modalitäten (hochauflösende Produktbilder, Einkaufsprodukte) unterstützen Bilder) Das multimodale große Modell realisiert die Ausrichtung mehrerer Modalitäten und die multimodale Darstellung von Produkten. Es verfügt nicht nur über die feinkörnige Fähigkeit, ähnliche Produkte in komplexen Einzelhandelsszenarien zu unterscheiden, sondern auch über die Fähigkeit, Texte nach zu durchsuchen Bilder oder Bilder nach Texten in Empfehlungsszenarien. Abruffunktionen.

Für bestimmte Geschäftsanwendungen kann das Cloudwalk-Commodity-Großmodell auch über gute Commodity-Erkennungsfunktionen verfügen, ohne die realen Daten der entsprechenden Szene zu verwenden. Es muss nur eine kleine Menge markierter oder nicht markierter Daten verwendet werden, um den visuellen Abruf nachgelagerter Commodities effizient zu realisieren Die granulare Identifizierung und der multimodale Abruf sind sehr benutzerfreundlich für die Produktvorrecherche und Aufgabenmigration und unterstützen eine schnelle Projektiteration.

Effizienzvorteile liegen auf der Hand und große Modelle sind weit verbreitet

Die Daten zeigen, dass die durchschnittliche jährliche durchschnittliche Wachstumsrate des unbemannten Einzelhandelsmarktes meines Landes 31,23 % beträgt. Rohstoffe sind der Hauptbestandteil des Einzelhandelsmarktes, und warenbezogene Wahrnehmungsaufgaben waren schon immer ein Forschungsschwerpunkt bei der Implementierung von Algorithmen der künstlichen Intelligenz. Basierend auf der großen Menge an Produktgrafikinformationen im Internet und der großen Menge an Produktdaten in der tatsächlichen Produktionsumgebung entwickelt CloudWalk Technology ein produktzentriertes, multimodales, vorab trainiertes großes Modell, das sich auf verschiedene nachgelagerte Aufgaben im Zusammenhang mit Produkten konzentriert. und praktiziert und implementiert das Konzept der „Mensch-Maschine-Kollaboration“.

Durch eingehende Forschung zum gesamten Prozess der Einzelhandelsbranche nutzt CloudWalk das große Modell der Warenbasis, um den gesamten Prozess der Einzelhandelsbranche intelligent zu aktualisieren und KI-Verkaufsassistenten bereitzustellen, die unterschiedliche Verantwortlichkeiten und Szenarien erfüllen.

 

 

Beispielsweise hat CloudWalk Technology in den letzten Jahren eine umfassende Smart-Container-Lösung im Bereich Smart Retail vorgeschlagen. Einerseits hat es Unternehmen dabei geholfen, die betriebliche Effizienz zu verbessern und die Servicequalität in allen Aspekten des Warenmanagements insgesamt zu optimieren; Warenerkennungsalgorithmus Die Technologie, die das Video des Kaufvorgangs des Verbrauchers analysiert, hat eine umfassende Erkennungsgenauigkeit von 99,48 % erreicht. Gleichzeitig kann sie die Einkaufszeit um das Fünfzigfache verkürzen und das Kaufergebnis in Echtzeit über die zweite Ebene zurückgeben Erkennung, Realisierung des intelligenten Einkaufsprozesses „Grab and Go, automatische Abwicklung“, wodurch das Einkaufserlebnis der Verbraucher erheblich verbessert wird.

 
 

Acho que você gosta

Origin blog.csdn.net/songguocaijing/article/details/132050250
Recomendado
Clasificación