„2023 Big Language Model Comprehensive Ability Evaluation Report“ wird veröffentlicht: Inländische Produkte, vertreten durch Wen Xinyiyan, stehen kurz vor dem Durchbruch.

Kürzlich wurden nacheinander günstige inländische Richtlinien im Bereich der künstlichen Intelligenz veröffentlicht, und bei einschlägigen Treffen der Zentralregierung wurde betont, dass „wir in Zukunft der Entwicklung allgemeiner künstlicher Intelligenz große Bedeutung beimessen und eine Innovation schaffen müssen.“ Ökosystem.“ „Pekings verschiedene Maßnahmen zur Förderung der innovativen Entwicklung der allgemeinen künstlichen Intelligenz (2023–2025) (Entwurf zur Kommentierung)“ schlägt 21 spezifische Maßnahmen in fünf Hauptrichtungen vor, darunter „Forschung zu innovativen Großmodellalgorithmen und Schlüsseltechnologien“. „, „Stärkung der Forschung und Entwicklung von Tools zur Erfassung und Steuerung von Trainingsdaten für große Modelle“ usw. und zielt auch auf staatliche Dienstleistungen, Medizin und Anwendungsszenarien in der wissenschaftlichen Forschung, im Finanzwesen, im autonomen Fahren, in der Stadtverwaltung und anderen Bereichen ab, die es zu ergreifen gilt Nutzen Sie die Entwicklungsmöglichkeiten großer Modelle und fördern Sie die Innovationsführerschaft im Bereich der allgemeinen künstlichen Intelligenz. Chinas große Modelltechnologiebranche hat eine Welle beispielloser Entwicklungsmöglichkeiten eingeläutet. Baidu, Viele inländische Unternehmen wie Alibaba und Huawei haben schnell verwandte Unternehmen eingeführt und gegründet ihre eigenen groß angelegten Produkte für künstliche Intelligenz.

Darüber hinaus verfügt die gesamte große Modelbranche der Welt derzeit über eine relativ hohe Dichte an Talentteams und wird durch Kapital unterstützt. Was das Talent angeht, lässt sich an den Hintergründen einiger der derzeit angekündigten großen Modell-F&E-Teams erkennen, dass die Teammitglieder von internationalen Spitzenuniversitäten stammen oder über erstklassige wissenschaftliche Forschungserfahrung verfügen; was das Kapital betrifft, nehmen Sie Amazon und Google als Beispiele. Die Investitionsausgaben in diesem Bereich erreichten 58,3 Milliarden US-Dollar bzw. 31,5 Milliarden US-Dollar und zeigen weiterhin einen Aufwärtstrend. Nach den neuesten von Google veröffentlichten Daten übersteigen die idealen Trainingskosten für sein großes Modell mit einer Trainingsparametergröße von 175 Milliarden US-Dollar 9 Millionen Dollar.

Wenn ein Bereich über eine hohe Dichte an Kapital und Talentteams verfügt, bedeutet dies, dass sich dieser Bereich schneller entwickelt. Viele Menschen sind der Meinung, dass die Entstehung von ChatGPT, einem phänomenalen Produkt, den Auftakt für die rasante Entwicklung der Technologie für große Sprachmodelle gegeben hat. Tatsächlich haben Technologiegiganten wie OpenAI, Microsoft, Google, Facebook, Baidu und Huawei seit der Geburt des großen Sprachmodells im Jahr 2017 das Feld großer Sprachmodelle weiter erforscht. ChatGPT hat das große Sprachmodell nur weiterentwickelt Technologie auf das explosive Stadium. Derzeit hat die große Modellproduktlandschaft eine neue Situation gezeigt: Ausländische Basismodelle wurden stark angesammelt, und der inländischen Anwendungsseite wurde Vorrang eingeräumt.

 

Zu diesem Zweck suchte das InfoQ Research Center nach einer großen Menge an Literatur und Informationen auf der Grundlage von drei Forschungsmethoden: Desktop-Recherche, Experteninterviews und wissenschaftliche Analyse, und interviewte mehr als 10 technische Experten auf diesem Gebiet Gleichzeitig lag der Schwerpunkt auf der Genauigkeit des Sprachmodells und den Daten. Die vier Hauptdimensionen Grundlagen, Modell- und Algorithmusfähigkeiten, Sicherheit und Datenschutz sind in semantisches Verständnis, grammatikalische Struktur, Wissensfrage und -antwort, logisches Denken, Codierungsfähigkeit, Kontextverständnis und Kontext unterteilt Bewusstsein, Mehrsprachigkeit, Multimodalität. Die 12 Unterteilungsdimensionen Datengrundlage, Modell- und Algorithmusfähigkeiten, Sicherheit und Datenschutz werden jeweils für ChatGPT gpt-3.5-turbo, Claude-instant, Sage gpt-3.5-turbo analysiert. Tiangong 3.5, Wenxinyiyan V2.0.1, Tongyi Qianwen V1.0.1, iFlytek Spark Cognitive Large Model, Moss-16B, ChatGLM-6B und Vicuna-13B haben Bewertungen von mehr als 3000 Fragen durchgeführt und basierend auf den Bewertungsergebnissen veröffentlicht< /span> (im Folgenden als „Bericht“ bezeichnet). „Large Language Model Comprehensive Ability Evaluation Report 2023“

Um die Objektivität und Fairness des Berichts sowie die Genauigkeit der Berechnungsergebnisse sicherzustellen, hat das InfoQ Research Center eine Reihe wissenschaftlicher Berechnungsmethoden auf der Grundlage von Stichproben erstellt – durch tatsächliche Tests wurden die Antworten auf 300 Fragen jedes Modells erhalten Die Antworten wurden bewertet. Antworten erhalten 2 Punkte, teilweise richtige Antworten erhalten 1 Punkt, völlig falsche Antworten erhalten 0 Punkte und Antworten, die laut Modell nicht möglich sind, erhalten -1 Punkt. Die Berechnungsformel lautet „Bewertungsrate eines bestimmten Modells in einer bestimmten Unterteilungskategorie = Modellbewertung / Gesamtmodellbewertung“. Wenn beispielsweise die Gesamtpunktzahl von Modell A in der Kategorie mit 7 Fragen 10 beträgt und die für diese Fragenkategorie verfügbare Gesamtpunktzahl 7*2=14 beträgt, beträgt die Punktzahl von Modell A in dieser Fragenkategorie 10/14 =71,43 %.

Basierend auf den oben genannten Bewertungsmethoden zieht der Bericht hauptsächlich viele Schlussfolgerungen, die jedermanns Aufmerksamkeit verdienen. Wir hoffen, dass die Interpretation der folgenden Kernschlussfolgerungen Ihnen Hinweise für Ihre spezifische Praxis und Erkundung der zukünftigen Technologie großer Sprachmodelle geben kann.

1. Der Maßstab von zig Milliarden Parametern ist das „Ticket“ für das Training großer Modelle, und die Revolution der Großmodelltechnologie hat begonnen.

Unternehmen müssen für die Entwicklung großer Modellprodukte gleichzeitig über drei Hauptelemente verfügen, nämlich Datenressourcenelemente, Algorithmus- und Modellelemente sowie Kapital- und Ressourcenelemente. Durch die Analyse der Merkmale von Produkten auf dem aktuellen Markt stellte das InfoQ Research Center fest, dass Datenressourcen, Gelder und Ressourcen die Grundelemente für die Forschung und Entwicklung großer Sprachmodelle sind. Algorithmen und Modelle sind derzeit die Kernelemente, die die Forschungs- und Entwicklungskapazitäten großer Sprachmodelle auszeichnen. Modellreichtum, Modellgenauigkeit und die Entwicklung von Fähigkeiten, die durch Algorithmen und Modelle beeinflusst werden, sind zu zentralen Indikatoren für die Bewertung der Qualität großer Sprachmodelle geworden. Hierbei ist zu beachten, dass Daten und finanzielle Ressourcen zwar eine hohe Schwelle für die Entwicklung großer Sprachmodelle gesetzt haben, diese jedoch für große und leistungsstarke Unternehmen immer noch eine geringere Herausforderung darstellt.

 

Eine sorgfältige Untersuchung der Kernelemente großer Modellprodukte wird zeigen, dass das Training großer Modelle „groß genug“ sein muss und der Maßstab von zig Milliarden Parametern das „Ticket“ ist. Daten von GPT-3 und LaMDA zeigen, dass viele Fähigkeiten großer Modelle (z. B. Rechenleistung) nahezu Null sind, wenn die Modellparametergröße im Bereich von 10 bis 68 Milliarden liegt. Gleichzeitig löste eine große Anzahl von Berechnungen den „Alchemiemechanismus“ aus. Laut dem Anhangkapitel im NVIDIA-Papier beträgt die Berechnungsmenge einer Iteration etwa 4,5 ExaFLOPS, und das vollständige Training erfordert 9500 Iterationen. Die Berechnungsmenge von Die gesamte Ausbildung beträgt 430 ZettaFLOPS (entspricht einer Rechenleistung von 43,3 Jahren auf einem einzelnen A100).

 

Datenquelle: Sparks of Artificial General Intelligence Frühe Experimente mit GPT-4

Betrachtet man die Größenordnung der globalen Parameterskala für das Training großer Modelle, so kann die abgeleitete Parameterskala des international führenden Großmodells GPT-4 laut Minsheng Securities Research Institute und Wikipedia-Daten mehr als 5 Billionen erreichen, und die Skala einiger weniger Inländische Großmodelle sind größer als 10 Milliarden. Unter ihnen sind Ernie, entwickelt von Baidu, und Pangu, entwickelt von Huawei, derzeit führend in der Parameterskala inländischer großer Modelle mit Daten.

 

InfoQ Das Forschungszentrum führte umfassende Tests an verschiedenen großen Sprachmodellen durch und stellte fest, dass ausländisches ChatGPT in verschiedenen Funktionen tatsächlich sehr resistent ist und den ersten Platz belegte. Überraschenderweise schaffte Wen Xinyiyan von Baidu den Sprung unter die ersten drei und belegte den zweiten Platz. Erwähnenswert ist, dass seine Gesamtpunktzahl nur 2,15 hinter ChatGPT liegt und damit weit über dem drittplatzierten Claude liegt.

 

Datenbeschreibung: Die Evaluierungsergebnisse basieren ausschließlich auf den oben aufgeführten Modellen und die Evaluierungsfrist endet am 25. Juni 2023

Während des gesamten Forschungsprozesses stellte das InfoQ Research Center fest, dass die Ebene des Algorithmus und des Trainingsmodells die Leistung großer Sprachmodelle dominiert. Vom Grundmodell über die Entwicklung von Trainingsmethoden bis hin zu spezifischen Modelltrainingstechnologien haben die Unterschiede in der Modellauswahl in jedem Link zwischen allen derzeit auf dem Weg befindlichen Herstellern zu Unterschieden in der endgültigen Leistung großer Sprachmodelle geführt.

 

Die Produktfähigkeiten jedes Herstellers mögen unterschiedlich sein, aber da es genügend Akteure gibt, die am Bau von Großmodelltechnik beteiligt sind, lässt ihre kontinuierliche Erforschung der Technologie die Hoffnung auf eine erfolgreiche Revolution in der Großmodelltechnik erkennen. In einer Zeit, in der große Modellprodukte in voller Blüte stehen, haben große Sprachmodelle die Computerfunktionen von „Suchen“ über „Erkennen und Lernen“ bis hin zu „Aktion und Lösungen“ erweitert. Die Kernfunktionen großer Sprachmodelle haben eine Pyramidenstruktur gezeigt .

 

2. „Schreibfähigkeit“ und „Fähigkeit zum Verstehen von Sätzen“ sind die beiden wichtigsten Fähigkeiten, in denen große Sprachmodelle derzeit gut sind.

Nach den Bewertungsergebnissen des InfoQ Research Center sind Sicherheits- und Datenschutzfragen der Konsens und das Endergebnis für die Entwicklung großer Sprachmodelle und stehen bei der Fähigkeitsbewertung an erster Stelle. Die Gesamtleistung der grundlegenden Fähigkeiten großer Sprachmodelle rangiert höher. Die Gesamtleistung von Programmierung, Argumentation und Kontextverständnis im Zusammenhang mit logischem Denken hat noch viel Raum für Verbesserungen; Multimodalität ist immer noch der einzigartige Vorteil einiger großer Sprachen Modelle.

 

Auf der Ebene der Grundfähigkeiten hat das große Sprachmodell hervorragende chinesische Fähigkeiten zum kreativen Schreiben gezeigt. Unter den sechs Themenkategorien der Schreibunterteilung ist die Leistung des großen Sprachmodells relativ herausragend. Unter ihnen erreichten Interviewentwurf und E-Mail-Schreiben beide nahezu die volle Punktzahl. Im Vergleich dazu ist das Schreiben von Videoskripten dem großen Sprachmodell noch relativ unbekannt Produkte. Im Feld beträgt die Bewertung der unterteilten Fragenkategorie nur 75 %.

 

Bei literarischen Fragen nimmt das Fähigkeitsniveau des großen Sprachmodells mit zunehmender Schwierigkeit des Schreibens ab. Der Abschnitt mit der besten Leistung war die einfache Schreibfrage mit einer Punktzahl von 91 %; obwohl viele Modelle bei der Couplet-Frage besser abschnitten, schnitten einige Modelle bei der Couplet-Antwort schlecht ab, wobei die niedrigste Gesamtpunktzahl bei 55 % lag.

 

Im Hinblick auf das semantische Verständnis sind die aktuellen großen Sprachmodelle jedoch nicht so „intelligent“. In den vier Fragekategorien Dialektverständnis, Schlüsselwortextraktion, semantische Ähnlichkeitsbeurteilung und „Was ist zu tun“ zeigte das große Sprachmodell eine sehr differenzierte Verteilung. Die „Was ist zu tun“-Frage erhielt mit 92,5 % die höchste Punktzahl und die Die Frage zum Verständnis des chinesischen Dialekts war ratlos. Bei einem großen Sprachmodell beträgt die Gesamtgenauigkeit nur 40 %.

Ein Bericht des Forschungszentrums InfoQ zeigt, dass das inländische Modell bei Fragen wie Chinesischkenntnissen deutlich besser abschneidet als das internationale Modell. Unter den zehn Modellen ist Wenxinyiyan mit einem Wert von 73,33 % das Modell mit der höchsten Wissensbewertung und das zweitbeste mit einem Wert von 72,67 % ChatGPT. Mit Ausnahme der Frage- und Antwortfragen zum IT-Wissen ist die Q&A-Leistung inländischer Großmodellprodukte in den anderen acht Fragekategorien in der chinesischen Wissensumgebung im Allgemeinen nahe an der von internationalen Großmodellprodukten oder sogar besser als diese.

 Tatsächlich spiegeln diese Fragen hauptsächlich die grundlegenden kognitiven und Lernfähigkeiten großer Sprachmodellprodukte für Text wider, unabhängig davon, ob es sich um chinesisches kreatives Schreiben, semantisches Verständnis oder chinesische Wissensfragen und -antworten handelt, und das wissen wir aus der Bewertung klar Ergebnisse Es ist ersichtlich, dass Baidu Wenxinyiyan in allen Datenaspekten eine hervorragende Leistung aufweist und alle Fähigkeitswerte als Top2 eingestuft werden. Was wir jedoch sehen, sind nicht nur die technischen Fähigkeiten von Wen Xinyiyan, sondern auch die starken technologischen Durchbrüche inländischer großer Sprachmodelle und bedeutende Fortschritte.

3. Inländische Produkte haben bei der sprachübergreifenden Übersetzung noch viel Raum für Verbesserungen, und die allgemeine Fähigkeit zum logischen Denken ist eine große Herausforderung.

In den letzten Jahren haben staatliche und inländische Hersteller ihre Investitionen in den Bereich der künstlichen Intelligenz von Jahr zu Jahr erhöht, und wir haben den rasanten Fortschritt inländischer Modelle großer Sprachen erlebt. Die technischen Errungenschaften machen uns glücklich, aber wenn wir uns große Sprachen ansehen Modelltechnik objektiver betrachten Bei unserer Entwicklung werden wir feststellen, dass wir im Vergleich zu internationalen Standards in manchen Punkten noch viel Luft nach oben haben.

Aus dem vom InfoQ Research Center veröffentlichten „Report“ können wir beispielsweise erfahren, dass die Programmierfähigkeiten ausländischer Produkte deutlich höher sind als die inländischer Produkte. Unter den zehn Modellen hat Claude mit einem Wert von 73,47 die höchste Programmierbewertung %. Das Inlandsprodukt weist die beste Leistung auf. Xin Yiyan erzielte 68,37 %, was immer noch weit hinter Claude liegt. Unter den vier Fragenkategorien übertrafen ausländische Produkte bei Android-bezogenen Fragen deutlich die inländischen Produkte. Überraschend ist jedoch, dass in der Frage „Kategorie zur automatischen Codevervollständigung“ die inländischen Produkte Wen Xinyiyan ausländische Produkte übertroffen haben, was zeigt, dass inländische Produkte Es ist nur eine Frage der Zeit, bis wir das internationale Niveau überschreiten.

 Darüber hinaus ist Claude mit einem Wert von 93,33 % auch derjenige mit der höchsten Wissensbewertung unter den zehn Modellen. Die höchsten Werte der inländischen großen Sprachmodelle sind Wenxinyiyan und Tiangong 3,5, es besteht jedoch immer noch eine Lücke zum internationalen Niveau. Sie sollten wissen, dass Übersetzungsfragen hauptsächlich die Sprachverständnisfähigkeit großer Sprachmodellprodukte widerspiegeln. Unter den drei Fragekategorien „Programmierübersetzungsfragen“, „Englisches Schreiben“ und „Englisches Leseverständnis“ wurde dieses Mal von InfoQ das große Sprachmodell bewertet zeigte viele Es gibt eine große Differenzverteilung. Unter allen getesteten Modellen erhielt die Frage zum englischen Schreiben die höchste Punktzahl von 80 %, während die Frage zum englischen Leseverständnis nur 46 % erhielt. Dies bedeutet, dass inländische Produkte weiterhin hart arbeiten müssen und in der sprachübergreifenden Übersetzung iterieren.

 Die Lücke besteht immer noch, aber es besteht kein Grund, sich selbst herabzusetzen. Die technologische Entwicklung der Großmodelltechnologie ist im Gange. Dem „Report“ zufolge steht das gesamte große Sprachmodell derzeit vor relativ großen Herausforderungen hinsichtlich der logischen Argumentationsfähigkeiten. Um das Verständnis und die Beurteilung großer Sprachmodelle zu bewerten, hat das InfoQ Research Center mehrere Dimensionen logischer Argumentationsfragen eingerichtet. In den fünf Fragekategorien Fragen zur geschäftlichen Tabellierung, Fragen zur mathematischen Berechnung, Fragen zur mathematischen Anwendung, Fragen zum Humor und Fragen zum chinesischen charakteristischen Denken sind die Gesamtwerte des großen Sprachmodells niedriger als die der Grundfähigkeiten. Bei der Analyse der Gründe müssen geschäftliche Tabellierungsfragen nicht nur Inhalte sammeln und identifizieren, sondern auch eine logische Klassifizierung und Sortierung basierend auf dem Inhalt durchführen. Die Gesamtschwierigkeit ist relativ hoch. Die Fähigkeit zum logischen Denken ist die Hauptangriffsrichtung für zukünftige große Sprachen Modellprodukte.

 

Unter den zehn vom InfoQ Research Center bewerteten Modellen schnitten Wenxinyiyan und iFlytek Spark bei Fragen zum logischen Denken mit jeweils 60 % am besten ab und lagen damit nur 1,43 % hinter ChatGPT, das die höchste Punktzahl erzielte. In einigen Unterteilungen ist die Leistung inländischer Produkte immer noch sehr gut. Beispielsweise liegt bei den chinesischspezifischen Argumentationsfragen das inländische Modell mit der höheren Punktzahl vor dem internationalen Modell. Die Vertrautheit des inländischen Modells mit chinesischen Inhalten und Logik sollte der Hauptgrund sein für dieses Ergebnis.

Anhand der oben vom InfoQ Research Center veröffentlichten Bewertungsergebnisse können wir die Lücke zwischen inländischen und ausländischen Produkten erkennen. Die Fähigkeiten des inländischen großen Sprachmodells liegen nahe am GPT3.5-Niveau, aber es gibt immer noch eine Große Lücke zu den GPT4-Funktionen. Betrachtet man jedoch das gesamte Gebiet der großen Sprachmodelle, kann jeder von uns deutlich feststellen, dass die Entwicklungsschwelle und die Herausforderungen der Technologie großer Sprachmodelle immer noch sehr hoch sind: die Chip-Schwelle, die Schwelle der praktischen Erfahrungsakkumulation, die Schwelle von Daten und Korpus erfordern alle inländische große ausländische Hersteller, die zusammenarbeiten, um Durchbrüche zu erzielen.

Den Bewertungsergebnissen des InfoQ Research Center zufolge entspricht die Gesamtpunktzahl von Wen Xinyiyan fast der von ChatGPT. In der jüngsten Welle der Internetrevolution in China kann Wenxinyiyan kurzfristig als das vielversprechendste Unternehmen des Landes bezeichnet werden. AIGC-Produkte, die internationalen Standards entsprechen. Das Team von Wen

Supongo que te gusta

Origin blog.csdn.net/mockuai_com/article/details/131660405
Recomendado
Clasificación