AIGC-Sonderbericht: Teilen von ChatGPT-Minuten

Heute geteiltAIGC-SerieAusführlicher Forschungsbericht: „AIGC-Sonderbericht: Teilen von ChatGPT-Minuten 》.

(Bericht erstellt von: Jiuqian Zhongtai)

Gesamtbericht: 135 Seiten

OpenAI-Manager entschlüsselt ChatGPT

¶ GPT-3 ist ein großes Sprachmodell, das mithilfe der Transformer-Architektur darauf trainiert wurde, das nächste Wort in einem bestimmten Kontext vorherzusagen

1 Es ist flexibel und kann für Aufgaben wie Übersetzung, Zusammenfassung, Klassifizierung und Beantwortung von Fragen verwendet werden. Der Vorteil von GPT-3 ist seine Einfachheit und die Fähigkeit, eine gute Leistung zu erbringen, ohne dass ein spezieller Trainingsdatensatz erforderlich ist.

2 GPT-3 kann für Übersetzungsaufgaben verwendet werden, indem Übersetzungsbeispiele beispielsweise für „Deutsch:Englisch“-Paare bereitgestellt werden (im Fall von Deutsch-Englisch-Übersetzungen) oder indem das Modell gebeten wird, einen bestimmten Satz zu übersetzen, wie wenn man einen Menschen fragt.

3 Obwohl GPT-3 hauptsächlich auf englischen Daten trainiert wurde, schneidet es bei Übersetzungsaufgaben immer noch gut ab, da es in der Lage ist, Übersetzungen zu generieren, indem es Muster in den bereitgestellten Beispielen verwendet und seine eigenen allgemeinen Sprachfähigkeiten nutzt.

  • Ein GPT-3 kann auch für Aufgaben wie Zusammenfassung und Beantwortung von Fragen verwendet werden. GPT-3 war auch in kommerziellen Anwendungen wie der Textgenerierung und der Beantwortung von Fragen erfolgreich. Es ist deutlich größer (Maßstab) und leistungsfähiger (Funktionalität) als die frühere Version von GPT und verfügt über mehr Trainingsdaten.
  • b Es dient zur Generierung von Ausgangspunkten oder Variationen für kreative Schreibaufgaben wie Produktbeschreibungen und wurde in OpenAIAPI integriert, um Entwicklern die Verwendung zu erleichtern.
  • Mit der c-API können Benutzer GPT-3 für bestimmte Aufgaben optimieren, einschließlich der Einstellung der Lernrate und der Anzahl der Datenübergänge sowie der Auswahl der Modellgröße.

4 Peter Welinder ist derzeit Vizepräsident für Produkte und Partner bei OpenAI und verantwortlich für den Betrieb von GPT-3 und anderen Unternehmen. Davor war er Forschungs- und Entwicklungsdirektor von OpenAI. Lösen Sie reale Probleme mit GPT-3.

¶ Glauben Sie, dass der Unterschied zwischen Ihnen und allen, die GPT-3 für Aufgaben in natürlicher Sprache verwenden, in der Qualität und Leistung des Modells selbst liegt? Oder andere Gründe? Geht es um Integration oder Überwachung in der Produktion oder so etwas?

1 Natürlich konzentrieren wir uns beim Aufbau einer API vor allem auf die Fähigkeiten des Modells.

2 Zweitens müssen Sie über ein schnelles Denkvermögen verfügen. Bevor wir die API für Sprachmodelle erstellt haben, kümmerte sich niemand um Inferenz. Jeder kümmert sich darum, wie schnell man sie trainieren kann, denn das ist alles, was zählt.

3 Damit Sie das Benchmark-Problem am Ende des Tages lösen können. Wir haben viel technische Arbeit geleistet, um superschnelle Schlussfolgerungen zu ziehen. Ich erinnere mich, dass wir in den ersten Monaten die ersten Prototypen der API an Kunden ausgeliefert haben, um sie zu verwenden, und wir konnten die Inferenz um das 200-fache oder so ähnlich beschleunigen.

  • a Wir haben uns viel Mühe gegeben, es superschnell zu machen. Der dritte Punkt betrifft die Sicherheit. Einer der Gründe, warum wir in diese InstructGPT-Modelle investiert haben, ist, dass wir gesehen haben, dass es manchmal zu unerwarteten Modellausgaben kommen kann. Sie könnten zum Beispiel einen sehr unschuldigen Satz schreiben.
  • b Aber aus irgendeinem Grund könnte es sehr dunkel werden oder Sie erhalten auf andere Weise eine verzerrte Ausgabe. Modelle, die unsere empfohlenen Anweisungen verwenden, weisen standardmäßig ein eher erwartetes Verhalten auf, Sie können das Verhalten jedoch auch auf bessere Weise spezifizieren.

4 Es zeigt sich: Wenn Sicherheit und Leistungsfähigkeit Hand in Hand gehen und Sie mehr Kontrolle darüber haben, wird das Produkt zu einem besseren Produkt. Das sind sicherlich Dinge, auf die wir uns konzentriert haben, und ich denke, dass uns das viel besser gelingt als den anderen Alternativen da draußen.

5 Schließlich ist es uns ein großes Anliegen, die Verwendung sehr einfach zu gestalten. Tatsächlich müssen Sie das Modell nicht laden, sondern nur ein fein abgestimmtes Modell aufrufen. Für den Aufruf ist nur eine Python-Zeile erforderlich die API. Dies ist auch unser Kernstück. Wir hoffen, dass jeder es problemlos nutzen kann.

Wann erscheint das inländische ChatGPT?

¶ Ereignis

1 Laut öffentlichen Nachrichten heißt Baidus KI-Produkt-Benchmarking ChatGPT auf Chinesisch Wenxinyiyan und auf Englisch ERNIEBot. Die Tests wurden im März abgeschlossen und sind für die Öffentlichkeit zugänglich.

2 Wir arbeiten noch am Sprint, bevor wir online gehen, und die Zeit könnte sich verschieben. Baidu Group-SW ist um mehr als 15 % gewachsen. Darüber hinaus haben andere Baidu-Unternehmen gute Leistungen erbracht, Anwendungsunternehmen haben gute Leistungen erbracht und der Markt entwickelt sich in beide Richtungen. Hervorragende große Modelle + innovative Anwendungsszenarien basierend auf großen Modellen.

¶ Wie ist der Fortschritt des Baidu ToC-Produkts und wie ist die Benutzererfahrung?

1 Baidu basiert auf dem großen Wenxin-Modell. Nachdem ChatGPT letztes Jahr veröffentlicht wurde, haben sie ein ähnliches neues Modell basierend auf dem Konversationskorpus erstellt. Es ist eine Kombination aus dem Multi-Runden-Konversationsmodell und der Baidu-Suchmaschine – wenn der Benutzer Wenn Sie eine Frage stellen, gibt die KI eine Antwort und die Suchmaschine erstellt basierend auf dieser Frage einige relevante Ergänzungen, z. B. die Quelle und den Link der Antwort.

2. In Kombination mit einer Suchmaschine ist der Gesamteffekt immer noch gut, da nach der Kombination keine mehreren Dialogrunden erforderlich sind. Im Allgemeinen stelle ich eine Frage, sie antwortet und es ist vorbei. Was das Problem betrifft, dass man nach mehreren Dialogrunden leicht vergisst, kann es erforderlich sein, sich im nachfolgenden Optimierungsprozess darauf zu konzentrieren, wie weitere Informationen erfasst werden und wie die langfristige Sprachabsicht des Benutzers erfasst wird.

¶ Wie sieht Bytes aktueller interner Plan für ChatGPT-ähnliche Produkte aus?

1 Aus unserer Sicht legt ByteDance großen Wert auf die Suche. Die Suche ist jetzt auch eine Abteilung der ersten Ebene, und sie legt großen Wert auf die Suche, da die Suche jetzt in Douyin und Toutiao sehr wichtig ist. Dieses Mal wurden auch mehrere A-Kernabteilungen zusammengefasst bildet ein kleines Team zur Herstellung von Modellen.

2 Derzeit gibt es möglicherweise keinen Produktplan, obwohl dieser später als Baidu ist, aber die Nachverfolgung hängt von der Wirkung des Produkts und der Benutzererfahrung ab. Die Auswirkungen der ersten und späteren Einführung sind nicht sehr groß und hängen davon ab über die weitere Entwicklung.

Wie man den starken Aufschwung und die inländische Entwicklung von ChatGPT versteht

¶ Zukünftige Entwicklungsrichtung

1 Derzeit sind seine kommerziellen Anwendungsszenarien sehr breit gefächert. Solange es die oben genannten Einschränkungen effektiv überwinden kann, wird es wahrscheinlich in vielen Branchen, insbesondere im Kundenservice, im Bildungswesen, in der Familienpflege und in anderen Bereichen, solch transformative Auswirkungen haben Seien Sie der Erste, der umgesetzt wird.

  • a Dieses Jahr 2023 könnte ein Jahr sein, in dem ChatGPT große Aufmerksamkeit erregt, oder es könnte ein Jahr sein, in dem Einschränkungen durch die Technologie schrittweise iteriert und anschließend überwunden werden. Auch für die Anwendung von KI-generierten Inhalten in diesem Textmodus ist die Entstehung des ChatGPT-Modells von großer Bedeutung.
  • b In Zukunft kann es mit diesem KI-generierten Inhaltsmodell von Bildern und Grafiken kombiniert werden, was weitere Anwendungen dieses KI-Erstellungshilfswerkzeugs vom Textausdruck bis zur Bildgenerierung ermöglichen kann. Oder einige Felder, die die Nutzungskosten akzeptieren können, sind möglicherweise die ersten, die sie nutzen.
  • c Nach meinem derzeitigen Verständnis haben viele Praktiker in der Branche immer noch eine abwartende Haltung gegenüber ChatGPT. Einerseits prüfen sie immer noch ständig die Genauigkeit einer Antwort aus dem Modell.

2 und wie gut es in einigen Bereichen passt. Andererseits sind viele Unternehmen, die ChatGPT einsetzen, auch durch die derzeit hohen Nutzungskosten eingeschränkt, sodass sie in Bezug auf die Kommerzialisierung immer noch eine vorsichtigere abwartende Haltung einnehmen.

  • a Derzeit glaube ich, dass ChatGPT möglicherweise ein neues Technologie-Ökosystem aufbaut, aber was es derzeit lernt, ist im Internet immer noch öffentlich bekannt und kann möglicherweise nicht in der Lage sein, die personalisierten Probleme einiger spezifischer Branchen und Unternehmen zu lösen.
  • b Daher müssen Unternehmen immer noch eine weiterführende Ausbildung in solchen verwandten Branchen, tiefgreifenden Branchenunterteilungen und vertikalen Branchen durchführen, was mit hohen Kosten für die weiterführende Ausbildung verbunden sein kann. Daher kann es für viele hervorragende Unternehmen erforderlich sein, kontinuierlich zu optimieren.
  • c. In der Lage sein, einige Lösungen und Produkte vorzuschlagen, die den Bedürfnissen und Schwachstellen unserer Kunden näher kommen. Als virtuelles menschliches Unternehmen können wir beispielsweise einige vertikale Lösungen für Unternehmen in bestimmten Branchen wie Regierung, Unternehmen, medizinische Versorgung, Banken usw. entwickeln.
  • d. Verwenden Sie Technologien wie ChatGPT, um professionell privatisiertes Wissen zu iterieren, damit es in der Lage ist, praktische Probleme zu lösen. Es könnte eine Anwendungsrichtung hinter ChatGPT sein.

¶ Wie groß ist derzeit die Kluft zwischen China und unseren überseeischen Ländern? Gibt es Nachholmöglichkeiten?

1 Derzeit konzentrieren sich Unternehmen, die ChatGPT in China ähneln, hauptsächlich auf große Unternehmen oder einige Institutionen und akademische Einrichtungen, die von nationalen politischen Fonds unterstützt werden, wie z. B. unser Baidu und Microsoft Xiaobing.

2 Einschließlich Alibaba und Tencent könnten dies auch tun. Der Hauptgrund ist, dass diese großen Player möglicherweise die Kosten für die Schulung eines so großen Modells wie ChatGPT tragen. Im Vergleich zu ausländischen Playern besteht immer noch eine gewisse Lücke.

3 Die aktuelle Lücke konzentriert sich hauptsächlich auf unser Pre-Training-Modell. Seine Antwortfähigkeit ist in der Tat natürlich, ebenso wie die Professionalität der Antwort und die Präsentation des Inhalts. Im Vergleich zum ausländischen ChatGPT-Modell besteht immer noch eine gewisse Lücke. von.

  • a Wenn Menschen es subjektiv erleben, haben sie immer noch das Gefühl, dass das Robotergefühl stärker ist. Wenn sie ChatGPT dann direkt erleben, werden sie das Gefühl haben, dass der Inhalt der Antwort sehr natürlich ist. Dies ist eine Lücke im subjektiven Erleben.
  • b Es sollte keinen Unterschied in der Anzahl der Parameter geben. Derzeit sind wir alle große Modelle mit Hunderten von Milliarden Parametern, egal ob es sich um ausländisches ChatGPT, inländisches Baidu oder ultragroßes Vortraining handelt von Alibaba vorgeschlagenes Modell.

4 Es handelt sich immer noch um das von der Tsinghua-Universität vorgeschlagene Vortrainingsmodell in sehr großem Maßstab, und der Unterschied in der Anzahl der Parameter zwischen ihnen ist nahezu gleich. Daher haben wir die Möglichkeit, dieses sehr umfangreiche Modellparametermodell im In- und Ausland zu trainieren.

  • a Es kann jedoch einige technische Unterschiede bei den Trainingsmethoden geben. Es besteht immer noch eine gewisse Lücke zwischen uns und anderen, daher liegt der Schwerpunkt möglicherweise auf den Trainingsmethoden und der Annotation des Korpus. Möglicherweise gibt es noch mehr solcher Korpus.
  • b Der ausländische Englischkorpus oder die englischen Trainingsmethoden können sich von den inländischen chinesischen Trainingsmethoden unterscheiden, daher weisen unsere aktuellen Trainingsmethoden in diesem Bereich noch eine gewisse technische Lücke auf.
  • c Aber ich denke, es gibt Möglichkeiten, aufzuholen. Solange wir diese Lücken schließen können, bevor die Kosten niedrig genug sind, um eine groß angelegte Kommerzialisierung zu ermöglichen.

5 Wenn die Kosten so weit gesenkt werden können, dass sie in großem Maßstab eingesetzt werden können, haben wir auch die Möglichkeit, mit diesen ausländischen Konkurrenten zu konkurrieren. Derzeit sind die Nutzungskosten noch relativ hoch, so dass unsere inländischen Unternehmen noch Zeit haben, aufzuholen.

Globale wissenschaftliche und technologische Innovation im Kern der KI-Entwicklung

¶ Der Größe des Trainingsdatensatzes und -modells nach zu urteilen, hat China in Bezug auf Modellfähigkeiten, Datenfähigkeiten und Anmerkungsfunktionen ChatGPT3.5 erreicht. Ist es möglich, innerhalb von 2 Jahren ähnliche Produkte für den Benchmark zu entwickeln?

1 Aus Sicht von NLP in China sind das Datenvolumen und die Parameterskala der großen Modelle der Laboratorien Baidu, Huawei, Tsinghua und Pengcheng nicht geringer als die von GPT3.5 und erreichen Hunderte Milliarden Daten und sogar das Datenvolumen und Modelle werden noch größer sein. Das nächste zu lösende Problem besteht darin, sich besser mit Wissen zu verbinden.

2 Aus heutiger Sicht haben wir in den letzten zwei Jahren mehr Vertrauen in das Land, es gibt keine Lücke bei Rechenleistung und Datenvolumen und wir holen schnell auf. In Zukunft müssen Coaching-Modelle, Reinforcement Learning und Experience-Modelle nicht unbedingt von einigen wenigen großen Unternehmen durchgeführt werden. Sie können von Unternehmen durchgeführt werden, die sowohl die Kerntechnologie großer Deep-Learning-Modelle beherrschen als auch über Branchenverständnis verfügen wird das Ökosystem bereichern und für sich selbst von großem Nutzen sein. Dies ist eine Chance für Unternehmen mit KI-Layout. 3 Yuncong verfolgt die Idee, Modelle und Wissen in Computer Vision, Sprache und NLP zu kombinieren, dann Coaching-Modelle zu erstellen und dann Erstellen von Erfahrungsmodellen. Inländische führende Unternehmen werden dem CHATGPT folgen, um den Erfolg zu überprüfen und dieses Paradigma voranzutreiben.

¶ Es gibt einen großen Unterschied zwischen GPT3.0 und GPT3.5. Die Antworten auf Wissenspunkte sind relativ umfassend. Wie weit ist ChatGPT3.5 von allgemeiner künstlicher Intelligenz entfernt?

1 Ein Generalist zu sein ist eine schwierige Sache. Derzeit spricht GPT3.5 immer von „richtigem Unsinn“ und verfügt über den Rahmen und die Logik einer Sprachorganisation. Die Reaktion auf ein bestimmtes Feld ist jedoch nicht tiefgreifend genug, und Insider werden das spüren Da stimmt etwas nicht. Das Coaching-Modell dient der Verbesserung der Professionalität und kann anhand von Daten und Wissen (Branchen-KNOWHOW) trainiert werden.

2 Wenn Sie möchten, dass allgemeine künstliche Intelligenz in einem bestimmten Aspekt sehr professionell ist, ist dies relativ einfach. Die Fähigkeit, ein bestimmtes Gebiet zu lösen, hat große praktische Bedeutung.

Gesamtbericht: 135 Seiten

Supongo que te gusta

Origin blog.csdn.net/GPT20236688/article/details/134950098
Recomendado
Clasificación