Kann künstliche Intelligenz Humor verstehen? Interpretation des Artikels „Können Sprachmodelle Spaß machen, eine Fallstudie zum chinesischen komischen Übersprechen?“

Hauptwerk des Artikels

(1) In Bezug auf die Kultur wurden Cross-Talk-Skripte in großem Umfang digitalisiert und bereinigt, was einen Beitrag zur NLP-Forschungsgemeinschaft und zur traditionellen chinesischen Kulturgemeinschaft leistet. Dies wird die Erstellung weiterer Cross-Talk-Skripte anregen und so dieses immaterielle Kulturerbe schützen. Derzeit scheinen die meisten Cross-Talk-Skripte homogen zu sein, was einer der größten Engpässe für ihre weite Verbreitung darstellt. Diese Arbeit wird ihre Vielfalt und Kreativität fördern und so dazu beitragen, ihr Aussterben zu verhindern.
(2) Technisch gesehen wurden verschiedene Methoden verglichen, darunter Seq2seq, GPT von Grund auf trainieren, GPT 2 und GPT-3 vorab trainieren, um Übersprechen zu erzeugen. Nach unserem besten Wissen ist dies die erste Arbeit, die untersucht, inwieweit ein vorab trainiertes Sprachmodell humorvolle Texte als Maßstab für die computergestützte Erstellung von Spaß erzeugen kann.
(3) Weiteres Aufzeigen von Problemen im Zusammenhang mit verschiedenen Vorurteilen, Stereotypen und manchmal auch Beleidigungen.

Problem Definition

Nehmen Sie als Beispiel „Gegenstück“. Bei Doppelaufführungen handelt es sich in der Regel um zwei Charaktere namens „Peng“ (kurz „Peng“) und „Dou“ (kurz „Dou“). Dous Ziel ist es, durch Sprache und Bewegung auf komische Weise aufzutreten. Peng ist die Nebenfigur, die den Dialog flüssiger und klarer macht. Ein Dialog besteht aus einer Reihe iterativer Äußerungen:
Φ = { ( u 1 , v 1 ) , ( u 2 , v 2 ) , … , ( u K , v K ) } \Phi = \{ (u_1, v_1), ( u_2, v_2), \ldots, (u_K, v_K) \}Phi={( u1,v1) ,( u2,v2) ,,( uK,vK)}
Das ist einKKDer K -runde Zwei-Wege-Cross-Talk-Dialog enthält 2K Äußerungen, von denen K von Dou stammt (bezeichnet alsuu)u ) JapanischerKKK kommt von Peng (bezeichnet alsvvv ). Seien Sie vorsichtig,ui u_iuichJapanisch vi v_ivichSie bestehen aus mehreren Äußerungen. Insbesondere gilt: ui = { ϕ i , 1 , ϕ i , 2 , … , ϕ i , j , … , ϕ i , li } u_i=\{\phi_{i,1} , \phi_ {i,2}, \ldots, \phi_{i,j}, \ldots, \phi_{i,l_i}\}uich={ Pich , 1,ϕich , 2,,ϕich , j,,ϕich , lich}ϕ i , j \phi_{i,j}ϕich , jDas ist Nummer IIjjin i Dou/Peng -Äußerungj Worte,li l_ilichist die Anzahl der Wörter in der Äußerung.

Das Training kann als zwei Paradigmen konzipiert werden:
1) eine Seq2seq-Äußerungsgenerierungsaufgabe: Es kann als Sequenz-zu-Sequenz-Aufgabe angesehen werden, um die nächste Äußerung basierend auf der vorherigen Äußerung vorherzusagen;
2) eine nächste Wortgenerierungsaufgabe: es auch Es kann als typisches Sprachmodell angesehen werden, das keine Äußerungsgrenzen berücksichtigt, dh als ursprüngliches Sprachmodell, das das nächste Wort vorhersagt. Modelle werden unter Verwendung häufig verwendeter generativer Metriken bewertet, wobei ein Ansatz zur autoregressiven Äußerungsgenerierung verwendet wird, der die nächste Äußerung basierend auf früheren Äußerungen vorhersagt, unabhängig davon, ob sie in einem Seq2seq-Äußerungsgenerierungsparadigma oder einem Nächstes-Wort-Vorhersageparadigma trainiert wird.

C 3 C^3C3 Datensätze

Datensatzgröße

Die Größe des Datensatzes ist in der Tabelle dargestellt. Es wurden 9.331 hochwertige Skripte und 663.305 Äußerungen erfasst. Insgesamt gibt es 9.331 Dialogzeilen und 16.481.376 Zeichen.
Bild.png
Länge der Skripte und Äußerungen Jedes Skript enthielt durchschnittlich 71 Äußerungen. Eine Äußerung mittlerer Länge umfasst etwa 16 Wörter. Wenn eine Äußerung mehr als 128 Wörter umfasst, wird sie als lange Äußerung definiert; wenn sie weniger als 24 Wörter umfasst, wird sie als kurze Äußerung definiert. Es gibt 8.717 lange Aussagen und 446.756 kurze Aussagen.

**Über die Diskussion von Datensätzen

Typische Humortheorien definieren drei Arten von Humor: 1) Erleichterungstheorie: Reduzierung psychischer Spannungen; 2) Überlegenheitstheorie: Über das Unglück anderer lachen, um sich überlegen zu fühlen; 3) Inkongruenz-Nebeneinander-Theorie: Der Widerspruch zwischen den beteiligten Konzepten Inkongruenz in der Realität Objekte bestimmter Situationen und Konzepte. Diese drei Mechanismen sind in Cross-Talk-Skripten leicht zu finden. Zum Beispiel: 1) Der Darsteller bringt das Publikum in eine angespannte Szene und erzählt plötzlich einen unbeschwerten Witz, 2) Der Darsteller nimmt jemanden mit, der eine schlechte Erfahrung gemacht hat (normalerweise einen Darsteller auf der Bühne oder einen anderen Darsteller, der nicht auf der Bühne ist). ) Nur ein Scherz, 3) Die Darsteller beschreiben manchmal einige unglaublich absurde Szenarien. Ein weiterer besonderer Humor beim Übersprechen ist das „gleichförmige Wortspiel“, denn Übersprechen ist eine verbale Darbietungskunst. Dies hängt manchmal mit bestimmten Dialekten des Chinesischen zusammen. Um mit „homomorphen Wortspielen“ umgehen zu können, muss das generative Modell möglicherweise etwas akustisches Wissen einbringen.

Ethische Fragen bei Gegengesprächen: Es muss beachtet werden, dass es bei Gegengesprächen viele ethische Fragen gibt. Übersprechen ist mit vielen Vorurteilen verbunden, darunter Diskriminierung aufgrund des Bildungshintergrunds, geschlechtsspezifische Vorurteile und berufliche Vorurteile. Darüber hinaus verstärken Cross-Talk-Skripte auch lokale Stereotypen. Oftmals machen sich die beiden Darsteller auch übereinander lustig, manche sogar als „Beleidigung“. Glücklicherweise gilt dies nur für die Crosstalk-Darsteller selbst. Es wird davon ausgegangen, dass die Auseinandersetzung mit diesen ethischen Fragen eine notwendige Voraussetzung für die Entwicklung der Cross-Talk-Kunst sein sollte.

Experiment

automatische Bewertung

Versuchsaufbau

Bild.png
Implementierung von LSTM Seq2seq, das von Grund auf als Basis trainiert wird. Um die Vorteile bestehender vorab trainierter Sprachmodelle zu nutzen, sind auch vorab trainiertes UniLM, GPT und T5 in fein abgestimmter Weise enthalten. Kürzlich wurden groß angelegte vorab trainierte chinesische Sprachmodelle wie CPM, Zhouwenwang und Pangu-α veröffentlicht, daher werden diese Modelle ohne Stichprobe bewertet, da die Feinabstimmung dieser Modelle wirtschaftlich kostspielig ist. Darüber hinaus wurde auch die Wirksamkeit von GPT-3 überprüft. Glücklicherweise bietet GPT-3 APIs zur Feinabstimmung, was GPT-3 zum einzigen groß angelegten PLM macht, das zu erschwinglichen Kosten feinabgestimmt werden kann.

LSTM Seq2seq: Das LSTM-Netzwerk besteht aus einem zweischichtigen bidirektionalen LSTM-Encoder und einem zweischichtigen LSTM-Decoder. Die Einbettungsgröße und die Größe des verborgenen Zustands des LSTM-Modells sind beide auf 300 festgelegt. Das Encoder-Decoder-Modell verbessert den Aufmerksamkeitsmechanismus. Für die k-te Äußerung in der Konversation ist die Eingabe in den Encoder die Verkettung aller früheren Äußerungen vor k, gekürzt mit 256 Token, und die Zielausgabe des Decoders ist die k-te Äußerung.

UniLM: Das Unified Language Model (UniLM) verwendet einen mehrschichtigen Transformer und verwendet außerdem verschiedene Masken, um die Anzahl der sichtbaren Kontextwörter zu steuern, sodass es auf Aufgaben zum Verstehen natürlicher Sprache (NLU) und zur Erzeugung natürlicher Sprache (NLG) angewendet werden kann. Aufgaben. Das Vortrainingsmodell wird mithilfe von Wikipedia-Daten und Nachrichtenkorpusdaten in CLUE vorab trainiert. Das in diesem Artikel verwendete UniLM besteht aus 12 Schichten, die versteckte Größe beträgt 768 und die Anzahl der Köpfe beträgt 12. Die fein abgestimmte Datenstruktur ist auf die gleiche Weise wie Seq2seq aufgebaut.

T5: ist ein einheitliches Framework, das verschiedene Textaufgaben in einem Text-zu-Text-Format verarbeitet. Es besteht aus einer Encoder-Komponente und einer Decoder-Komponente, die beide Stapel aus vielen Transformer-Schichten sind. Verwenden Sie die chinesische Version des vorab trainierten T5-Modells und für das Training die Modelle T5Chinese-base7 und T5-Chinese-small8. Die Parameter des Basismodells betragen 275 Millionen und die Parameter des kleinen Modells betragen 95 Millionen.

GPT: Das generative vortrainierte Transformer (GPT)-Modell von OpenAI hat die Community für die Verarbeitung natürlicher Sprache durch die Einführung eines sehr leistungsstarken Sprachmodells erobert. Das GPT-Modell basiert mit einigen Modifikationen auf dem unidirektionalen Transformator. In der Implementierung ist das GPT-Modell ein 12-schichtiger Transformer mit einer versteckten Größe von 768, der mit dem LCCC Corpus Base Corpus 9 vorab trainiert und mit dem Crosstalk-Datensatz feinabgestimmt wurde. Teilen Sie die Konversation in mehrere Äußerungen auf und kombinieren Sie nacheinander Äußerungen mit weniger als 256 Wörtern in einer einzigen Eingabe.

GPT-3: Es handelt sich um ein einseitiges Sprachmodell. Das größte GPT-3-Modell verwendet 45 TB Daten für das Training und verfügt über 175 Milliarden Parameter. Mittlerweile konzentriert sich GPT-3 hauptsächlich auf allgemeinere Modelle zur Verarbeitung natürlicher Sprache, um weniger Domänendatenprobleme zu lösen, und es gibt keinen Feinabstimmungsschritt. Es ist zu beachten, dass GPT-3 hauptsächlich für die Generierung von englischen Texten verwendet wird, es kann jedoch auch flüssige chinesische Texte generieren. Zur Bewertung der Crosstalk-Erzeugung wurde die Online-Test-API von GPT-3 verwendet. GPT3-Davinci ist eine Version, die mit der nicht fein abgestimmten Davinci-Engine ausgestattet ist. Die wahre Größe der Davinci-Engine ist unbekannt, da keine Details veröffentlicht wurden; es gibt jedoch Hinweise darauf, dass die Davinci-Engine mit 175 Milliarden Parametern das größte Modell sein könnte. GPT3-Davinci-finetuned ist eine fein abgestimmte Version, die die GPT-3-API verwendet. 200 Cross-Talk-Skripte wurden innerhalb von 4 Epochen verfeinert.

Pangu-α: Es handelt sich um ein groß angelegtes autoregressives Sprachmodell mit bis zu 200 Milliarden Parametern. Es verbraucht 1,1 TB hochwertige chinesische Daten aus einer Vielzahl von Domänen. Die öffentliche Version von Pangu-α (mit 2,6B-Parametern) ist unter https://huggingface.co/imone/pangu_2_6B verfügbar.

CPM: ist ein generatives vorab trainiertes Modell, das auf einem chinesischen 100-GB-Korpus trainiert wurde. CPM-Large verfügt über 36 Transformer-Schichten und erreicht 2,6B Parameter.

Zhou Wenwang: Es werden sowohl die Aufgabe des generativen Sprachmodells als auch das Maskensprachmodell berücksichtigt; es kann über die Fähigkeiten der Sprachgenerierung und des Verständnisses natürlicher Sprache verfügen. Das größere Modell (Zhouwenwang-1.3B) hat 1,3 Milliarden Parameter.

Auswertung: 200 chinesische Crosstalk-Dialoge werden zufällig zum Testen ausgewählt, der Rest wird für das Training verwendet. Um die k-te Äußerung zu generieren, werden alle früheren Äußerungen vor k mit einer Gesamtlänge von 256 als Eingabe verkettet. Zur Messung der Qualität der generierten Antworten werden mehrere weit verbreitete Metriken verwendet. BLEU-1/2/4 ist eine beliebte Metrik zur Berechnung der K-Gramm-Überlappung zwischen generierten Äußerungen und Referenzäußerungen. ROUGE-1/2/L misst die Überlappung von Wörtern und Bigrammen auf eine erinnerungsorientierte Weise, während ROUGE-L die längste gemeinsame Teilsequenz Lin (2004) verwendet, um die längste übereinstimmende Wortsequenz zu messen. GLEU ist eine automatisierte Bewertung der Sprachkompetenz auf Satzebene. Distinct-1/2 bietet Methoden zur Bewertung der Vielfalt generierter Antworten.

Ergebnis

  • GPT-3 schnitt gut ab und die Ergebnisse sind in Tabelle 5 aufgeführt. Bei den meisten Metriken (außer ROUGE-L und Distinct-1/2) übertrifft GPT-3 andere Modelle. Dies ist bemerkenswert, da GPT-3 beispielsweise nicht auf diesen Datensatz abgestimmt wurde. Mit anderen Worten, dieser Datensatz (einschließlich Training). und Testsätze) ist für GPT-3 im Allgemeinen unsichtbar. Dies liegt wahrscheinlich daran, dass es mit einem großen gemeinsamen Korpus trainiert wurde und daher in der Lage ist, fließenden Text auf der Grundlage ähnlicher Texte im Korpus zu generieren.

Bild.png

  • Die Leistung des vorab trainierten chinesischen Sprachmodells (PLM) ist relativ schlecht. Überraschenderweise schneiden groß angelegte Sprachmodelle, die ausschließlich auf Chinesisch trainiert wurden (z. B. CPM, Pangu-α und Zhou Wenwang), nicht so gut ab wie GPT-3, das hauptsächlich auf englischen Korpora und teilweise auf chinesischen Korpora trainiert wird. Insbesondere sind diese groß angelegten chinesischen PLMs mit Nullstichproben (d. h. CPM, Pangu-α und Zhou Wenwang) nicht so leistungsfähig wie fein abgestimmte, relativ kleinere PLMs (UniLM, GPT und T5). Dies kann daran liegen, dass ein mehrsprachiger Korpus ein vorteilhafter Faktor sein kann, da Humor möglicherweise über mehrere Sprachen hinweg geteilt wird. Darüber hinaus gibt OpenAI den Umfang von GPT3-Davinci nicht bekannt, was es unfair macht, ihre Leistung direkt mit veröffentlichten chinesischen PLMs zu vergleichen. Weil GPT3-Davinci möglicherweise viel größer ist als das verwendete chinesische PLM. Es wird auch vermutet, dass diese vorab trainierten chinesischen Sprachmodelle möglicherweise keine ausreichenden Trainingsschritte durchlaufen haben; diese Details werden jedoch nicht explizit offengelegt, was es schwierig macht, solche Vermutungen zu überprüfen.
  • Skalierung hilft, die Leistung zu verbessern. Vergleicht man die Leistung von T5-Small und T5-Base, führt ein größerer Maßstab durchweg zu einer besseren Leistung. Darüber hinaus wurde beobachtet, dass GPT-3 im großen Maßstab bei der automatischen Auswertung fast die beste Leistung erzielt, und es wird angenommen, dass das Vortraining im großen Maßstab die Qualität der Übersprecherzeugung erheblich verbessert.
  • Feinabstimmung umfangreicher vorab trainierter Sprachmodelle. Interessanterweise geht aus der automatischen Auswertung in Tabelle 5 hervor, dass die Leistung des fein abgestimmten GPT-3 bei den meisten Metriken schlechter ist als die des ursprünglichen GPT-3. Es wird vermutet, dass der Feinabstimmungsmechanismus zu solchen Ergebnissen geführt hat, wie z. B. einer Überanpassung des Trainingsdatensatzes und einer Beeinträchtigung einiger Generalisierungsfähigkeiten. Bei der menschlichen Auswertung ist das fein abgestimmte GPT-3 jedoch in der Lage, Skripte mit besserer Qualität zu erzeugen als das ursprüngliche GPT-3 (siehe Tabelle 7), was in Tabelle 6 zu sehen ist; dies deutet darauf hin, dass eine automatische Auswertung von Übersprechen möglich sein könnte So gut die menschliche Wahrnehmung auch ist, sie ist inkonsistent.
  • In Bezug auf Diversitätsmetriken zeigen Diversitätsmessungen mit Dist-1 und Dist-2, dass Modelle, die auf einem groß angelegten Vortraining basieren, vielfältigere Skripte generieren. Denn groß angelegtes Vortraining ist eine allgemeine Methode zur Verbesserung der Generalisierungsfähigkeit des Modells. Es ist wichtig zu beachten, dass Diversitätsmetriken während der Dekodierungsphase des Sprachmodells empfindlich auf Hyperparameter reagieren. Bitte beachten Sie, dass wir in Tabelle 5 nicht beabsichtigen, die allgemeine Leistung dieser Sprachmodelle zu vergleichen oder zu dem Schluss zu kommen, dass die allgemeine Leistung eines Sprachmodells besser ist als die des anderen. Denn die allgemeine Leistung dieser Sprachmodelle wird auch von ihrer Modellgröße, der Auswahl der Hyperparameter, dem Trainingskorpus usw. beeinflusst. Stattdessen nutzen wir einfach bestehende Sprachmodelle, die sowohl die chinesische Generierung verarbeiten als auch öffentlich verfügbar sind.

Fall Analyse

Bild.png

Menschliche Bewertung

Bild.png

aufstellen

Im Testsatz wurden 50 Skripte zufällig ausgewählt. Wir nehmen die ersten zehn Sätze als Eingabe für Seq2seq, GPT, GPT-3 und UniLM. Diese Modelle generieren die nächsten zehn Sätze Satz für Satz oder Wort für Wort. Wir haben ein 10-Sätze-Skript ausgewertet, das auf der Grundlage der ersten 10 Sätze des Originalskripts erstellt wurde, wie in der Web-Benutzeroberfläche in Anhang C beschrieben. Für jedes Skript zeigten wir den Teilnehmern 20 Sätze (einschließlich der ursprünglichen 10 Sätze und der generierten 10 Sätze). Die Teilnehmer wurden gebeten: 1) die Gesamtqualität und den Humor jedes generierten Skripts auf einer Fünf-Punkte-Skala zu bewerten („5“ bedeutet am besten, „1“ bedeutet am schlechtesten); und 2) jedes generierte Beispiel hinsichtlich Kohärenz und potenziellem Moral Hazard zu bewerten Flaggen werden auf einer dichotomen Skala bewertet („1“ für Ja, „0“ für Nein). Wir haben unbezahlte Freiwillige gebeten, an der Auswertung dieser generierten Ergebnisse von 10 Modellen teilzunehmen (wir haben T5-small ausgeschlossen, weil es zu klein war und das Originalskript enthielt). Fünfzehn Teilnehmer absolvierten alle Bewertungen. Die Bewertungen werden auf der Grundlage der durchschnittlichen Bewertung für jedes Modell über alle Gespräche und alle Teilnehmer hinweg berechnet. Der Fleiss-Kappa zwischen diesen Teilnehmern betrug 0,366.

Die Ergebnisse der menschlichen Beurteilung sind in Tabelle 7 aufgeführt. Die Kreativität und der Humor des Originalskripts erwiesen sich als die besten, was möglicherweise beweist, dass menschliche Kreativität und Humor den aktuellen, hochmodernen vortrainierten Sprachmodellen weit überlegen sind. Unter diesen vorab trainierten Modellen übertrafen GPT-3 und seine fein abgestimmte Version (GPT-3-Davinci-finetuned) die anderen Modelle hinsichtlich der Gesamtqualitätsbewertung deutlich. Obwohl fein abgestimmtes GPT-3 bei der automatischen Auswertung schlechter abschneidet (siehe Tabelle 5), übertrifft es interessanterweise das Nullstichproben-GPT-3 in der Gesamtqualitätsbewertung. Ähnlich wie bei der automatischen Bewertung in Tabelle 5 sind große, vorab trainierte chinesische Sprachmodelle mit null Stichproben (dritte Gruppe) in der Leistung fein abgestimmten mittelgroßen PLMs (wie UniLM, T5 und GPT) unterlegen. Seq2seq schneidet am schlechtesten ab, was möglicherweise daran liegt, dass Seq2seq das Vortraining nicht nutzt. Interessanterweise produzierte CPM-large mehr beleidigende Inhalte als die anderen Modelle; der Grund dafür bedarf weiterer Untersuchungen.

abschließend

Basierend auf menschlicher Bewertung können wir zwar die Qualität der Crosstalk-Erzeugung durch den Einsatz groß angelegter vorab trainierter Sprachmodelle erheblich verbessern, wir können jedoch vorläufig den Schluss ziehen, dass die beste Erzeugungsmethode in der Lage ist, Crosstalk mit einigermaßen guter Gesamtqualität zu erzeugen, die mit dem Original vergleichbar ist Skript. Das Verhältnis beträgt 65 % (2,27 zu 3,52). Das ist weit von dem entfernt, was wir erwartet hatten.

Dafür kann es zwei Gründe geben: Erstens sind die Bewertungskriterien für die Humorgenerierung unbefriedigend: Es fehlen Bewertungskriterien, mit denen sich die Humorgenerierung bewerten lässt. Angesichts der Inkonsistenz zwischen den Tabellen 5 und 7 bedeutet eine bessere Leistung bei BLEU- und ROUGE-Bewertungen nicht unbedingt eine Verbesserung des Humors, was darauf hindeuten kann, dass BLEU oder verwandte Metriken für die Erstellung von Bewertungen nicht ungeeignet sind. Textbasierte Bewertungskriterien sind für die Humorgenerierung möglicherweise nicht aussagekräftig, da Humor selbst vielfältig und subjektiv ist und keine textbasierte Wahrheit aufweist. Mit anderen Worten: Der Humor ist referenzfrei. Die menschliche Bewertung ist teuer und kann während des Modelltrainings kein Echtzeit-Feedback liefern. Zweitens berücksichtigen aktuelle Methoden nicht die Kernkomponenten des Humors. Zu den Kernkomponenten des Humors gehören Inkongruenz, Überraschung, kulturelle Resonanz und zwischenmenschliche Effekte. Ohne diese ist Training, das ausschließlich auf Daten basiert, eine milde Möglichkeit, echten Humor zu erzeugen. Es kann sich nicht an die Trainingsdaten erinnern und keinen echten Humor erzeugen.

Anmerkung des Verfassers:

Die Bedeutung des Artikels des Autors besteht darin, dass PLM anscheinend nicht in der Lage ist, Humor zu verstehen. Die Arbeit des Autors kann verbessert werden. Die Hauptarbeit des Autors dieses Artikels besteht darin, den Crosstalk-Datensatz zur direkten Feinabstimmung verschiedener PLMs zu verwenden Die Ergebnisse sind nicht zufriedenstellend. Daher besteht meine Idee darin, das Sprachmodell zunächst verstehen zu lassen, was ein humorvoller Satz ist, also ob es möglich ist, dem Trainingssatz einige unhumorvolle Daten hinzuzufügen und einen Verlust hinzuzufügen, um zu bestimmen, ob der Satz humorvoll ist humorvoll zur Verlustfunktion. Wird das Modell dadurch besser?

Darüber hinaus hat der Autor die schlechte Leistung des chinesischen Vortrainingsmodells nicht näher untersucht.

Acho que você gosta

Origin blog.csdn.net/qq_51957239/article/details/135256171
Recomendado
Clasificación