人工知能はユーモアを理解できるのでしょうか? 論文「中国語のコミカルなクロストークにおけるケーススタディとして、言語モデルは面白くなるのか」の解釈

記事の主な仕事

(1) 文化の面では、クロストークのスクリプトが大規模にデジタル化およびクリーン化され、NLP 研究コミュニティと中国の伝統文化コミュニティに貢献しています。これにより、より多くのクロストーク スクリプトの作成が促進され、この無形文化遺産が保護されます。現時点では、ほとんどのクロストーク スクリプトは均一であるように見えますが、これがクロストーク スクリプトの広範な普及を制限する主なボトルネックの 1 つです。この取り組みは、彼らの多様性と創造性を促進し、絶滅を防ぐのに役立ちます。
(2) 技術的には、クロストークを生成するために、Seq2seq、ゼロからの GPT のトレーニング、GPT 2 および GPT-3 の事前トレーニングなど、さまざまな方法がベンチマークされました。私たちの知る限り、これは、コンピュータ支援による面白さの創造のベンチマークとして、事前トレーニングされた言語モデルがユーモラスなテキストをどの程度生成できるかを評価した最初の研究です。
(3) さまざまな偏見、固定観念、そして場合によっては侮辱に関連する問題をさらに指摘する。

問題定義

「相手」を例に挙げてみましょう。ダブルパフォーマンスには通常、「Peng」(略して「Peng」)と「Dou」(略して「Dou」)と呼ばれる2人のキャラクターが登場します。Dou の目標は、言語と動作を通じてコミカルな方法でパフォーマンスすることです。ペンは会話をよりスムーズかつ明確にするサポートキャラクターです。対話は一連の反復発話で構成されます:
Φ = { ( u 1 , v 1 ) , ( u 2 , v 2 ) , … , ( u K , v K ) } \Phi = \{ (u_1, v_1), ( u_2, v_2), \ldots, (u_K, v_K) \}ファイ={(あなた1v1(あなた2v2(あなたKvK)}こちらはKK
ですKラウンドの双方向クロストーク ダイアログには 2K の発話が含まれており、そのうち K は Dou (uuu)和 K K K はPeng から来ています (vvv)。请注意, u i u_i あなた私は v i v_i v私はこれらは複数の発話で構成されており、具体的には、ui = { ϕ i , 1 , ϕ i , 2 , … , ϕ i , j , … , ϕ i , li } u_i=\{\phi_{i,1} , \phi_ {i,2}、\ldots、\phi_{i,j}、\ldots、\phi_{i,l_i}\}あなた私は={ p 1ϕ 2ϕ jϕ私は}ϕ i , j \phi_{i,j}ϕ j是第 i i jjin i Dou/Pengの発話j単語、li l_i私は発話内の単語数です。

トレーニングは 2 つのパラダイムとして考えることができます:
1) Seq2seq 発話生成タスク: 前の発話に基づいて次の発話を予測するシーケンス間タスクとみなすことができます;
2) 次の単語生成タスク: また、発話境界を考慮しない典型的な言語モデル、つまり次の単語を予測するオリジナルの言語モデルと見ることができます。モデルは、Seq2seq 発話生成パラダイムでトレーニングされたか次の単語予測パラダイムでトレーニングされたかに関係なく、以前の発話に基づいて次の発話を予測する自己回帰発話生成アプローチを使用して、一般的に使用される生成メトリクスを使用して評価されます。

C3C^3C3つのデータセット

データセットのサイズ

データセットのサイズは表に示されており、9,331 の高品質なスクリプトと 663,305 の発話が収集されています。合計 9,331 行の会話と 16,481,376 文字があります。
画像.png
スクリプトと発話の長さ 各スクリプトには、平均 71 の発話が含まれています。中程度の長さの発話は約 16 ワードです。発話が 128 ワードを超える場合は長い発話として定義され、24 ワード未満の場合は短い発話として定義されます。8,717 の長いステートメントと 446,756 の短いステートメントがあります。

**データセットの議論について

典型的なユーモア理論では、次の 3 つのタイプのユーモアが定義されています: 1) 救済理論: 心理的緊張を軽減する; 2) 優越性理論: 自分が優れていると感じるために他人の不幸を笑うこと; 3) 矛盾した並列理論: 現実の不一致に関係する概念間の矛盾特定の状況や概念のオブジェクト。これら 3 つのメカニズムはクロストーク スクリプトで簡単に見つかります。たとえば、1) パフォーマーが聴衆を緊迫した場面に引き込み、突然軽いジョークを言う、2) パフォーマーは悪い経験をした人 (通常はステージ上のパフォーマー、またはステージ上にいない別のクロストーク パフォーマー) を連れて行きます。 ) 冗談です。 3) 出演者は、時々、陽気なほど不条理なシナリオを説明します。クロス トークのもう 1 つの特別なユーモアは「同じ形のダジャレ」です。クロス トークは言葉によるパフォーマンス アートであるためです。これは、中国語の特定の方言に関連している場合があります。「準同型ダジャレ」を処理するには、生成モデルに音響知識を注入する必要がある場合があります。

クロストークにおける倫理的問題: クロストークには多くの倫理的問題が含まれることに注意する必要があります。クロストークには、学歴差別、性別による偏見、職業上の偏見など、さまざまなバイアスが関係しています。さらに、クロストークスクリプトも地域の固定観念を増幅させます。多くの場合、2 人のパフォーマーはお互いをからかい、中には「侮辱」として冗談を言うこともあります。幸いなことに、これはクロストーク パフォーマー自身にのみ適用されます。クロストーク芸術の発展には、こうした倫理問題への対応が必須条件となるはずだと考えられる。

実験

自動評価

実験装置

画像.png
ベースラインとして最初からトレーニングされる LSTM Seq2seq を実装しました。既存の事前トレーニングされた言語モデルを活用するために、事前トレーニングされた UniLM、GPT、および T5 も微調整された方法で含まれています。最近、CPM、Zhouwenwang、Pangu-α などの大規模な中国語の事前トレーニング済み言語モデルがリリースされていますが、これらのモデルの微調整には経済的にコストがかかるため、これらのモデルはゼロサンプル方式で評価されています。また、GPT-3の有効性も検証されました。幸いなことに、GPT-3 は微調整用の API を提供しているため、GPT-3 は手頃なコストで微調整できる唯一の大規模 PLM となっています。

LSTM Seq2seq: LSTM ネットワークは、2 層双方向 LSTM エンコーダと 2 層 LSTM デコーダで構成されます。LSTM モデルの埋め込みサイズと隠れ状態サイズは両方とも 300 に設定されます。エンコーダ/デコーダ モデルは、アテンション メカニズムを強化します。会話の k 番目の発話の場合、エンコーダへの入力は、256 個のトークンで切り詰められた k より前のすべての過去の発話の連結であり、デコーダのターゲット出力は k 番目の発話です。

UniLM: 統一言語モデル (UniLM) は、多層トランスフォーマーを採用し、さまざまなマスクを使用して表示されるコンテキスト単語の数を制御するため、自然言語理解 (NLU) タスクや自然言語生成 (NLG) に適用できます。タスク。事前トレーニング モデルは、CLUE の Wikipedia データとニュース コーパス データを使用して事前トレーニングされます。この記事で使用する UniLM は 12 層で構成され、隠れサイズは 768、ヘッド数は 12 です。微調整されたデータ構造は Seq2seq と同じ方法で構築されます。

T5: さまざまなテキスト タスクを text-to-text 形式で処理する統合フレームワークです。これはエンコーダ コンポーネントとデコーダ コンポーネントで構成されており、どちらも多くの Transformer レイヤーのスタックです。T5 事前トレーニング済みモデルの中国語バージョンを使用し、トレーニングには T5 Chinese-base7 モデルと T5- Chinese-small8 モデルを使用します。基本モデルのパラメータは 2 億 7,500 万、小規模モデルのパラメータは 9,500 万です。

GPT: OpenAI の生成事前トレーニング済みトランスフォーマー (GPT) モデルは、非常に強力な言語モデルを導入することにより、自然言語処理コミュニティを引き継ぎました。GPT モデルは、いくつかの変更を加えた単方向トランスに基づいています。実装では、GPT モデルは、LCCC コーパス ベース コーパス 9 を使用して事前トレーニングされ、クロストーク データセットで微調整された、隠れサイズ 768 の 12 層 Transformer です。会話を複数の発話に分割し、256 単語未満の発話を 1 つの入力に順次結合します。

GPT-3: 一方向の言語モデルであり、最大の GPT-3 モデルはトレーニングに 45 TB のデータを使用し、1,750 億個のパラメーターを持ちます。一方、GPT-3 は主に、少数のドメイン データ問題を解決するためのより一般的な自然言語処理モデルに焦点を当てており、微調整の手順はありません。GPT-3 は主に英語テキストの生成に使用されますが、流暢な中国語テキストも生成できることに注意してください。クロストーク発生の評価にはGPT-3のオンラインテストAPIを使用しました。GPT3-Davinci は、Davinci エンジンを搭載した未調整のバージョンです。Davinci Engine の実際のサイズは詳細が公開されていないため不明ですが、Davinci Engine が 1,750 億個のパラメータを持つ最大のモデルである可能性があるという証拠がいくつかあります。GPT3-Davinci-finetuned は、GPT-3 API を使用して微調整されたバージョンです。200 のクロス トーク スクリプトは 4 エポック以内に微調整されました。

Pangu-α: 最大 2,000 億のパラメータを持つ大規模な自己回帰言語モデルです。幅広いドメインからの 1.1 TB の高品質の中国語データを消費します。Pangu-α の公開バージョン (2.6B パラメータ付き) は https://huggingface.co/imone/pangu_2_6B で入手できます。

CPM: 100 GB の中国語コーパスでトレーニングされた事前トレーニング済み生成モデルです。CPM-Large には 36 の Transformer レイヤーがあり、パラメータは 2.6B に達します。

Zhou Wenwang: 生成言語モデル タスクとマスク言語モデルの両方が考慮されており、言語生成と自然言語理解の機能を持つことができます。より大きなモデル (Zhouwenwang-1.3B) には 13 億のパラメータがあります。

評価: 200 個の中国語クロストーク ダイアログがテスト用にランダムに選択され、残りはトレーニングに使用されます。k 番目の発話を生成するには、k より前のすべての過去の発話が入力として合計長 256 で連結されます。生成された応答の品質を測定するために、広く使用されているいくつかの指標が採用されています。BLEU-1/2/4 は、生成された発話と参照発話の間の k グラムの重複を計算するための一般的なメトリクスです。ROUGE-1/2/L は、想起指向の方法で単語とバイグラムの重複を測定しますが、ROUGE-L は最長共通部分列 Lin (2004) を使用して、単語の最長一致シーケンスを測定します。GLEU は、文レベルの流暢さを自動評価します。Distinct-1/2 は、生成された応答の多様性を評価するメソッドを提供します。

結果

  • GPT-3 は良好なパフォーマンスを示し、結果を表 5 に示します。ほとんどのメトリクス (ROUGE-L と Distinct-1/2 を除く) で、GPT-3 は他のモデルよりも優れています。GPT-3 がこのデータセットで微調整されていないため、これは注目に値します。つまり、このデータセット (トレーニングを含む)およびテスト セットなど)は、通常、GPT-3 には認識されません。これはおそらく、大規模な共通コーパスを使用してトレーニングされているため、コーパス内の類似したテキストに基づいて流暢なテキストを生成できるためです。

画像.png

  • 中国語の事前トレーニング済み言語モデル (PLM) のパフォーマンスは比較的悪いです。驚くべきことに、純粋に中国語でトレーニングされた大規模言語モデル (CPM、Pangu-α、Zhou Wenwang など) は、主に英語コーパスで部分的に中国語コーパスでトレーニングされた GPT-3 ほどパフォーマンスが良くありません。特に、これらのゼロサンプルの中国の大規模 PLM (つまり、CPM、Pangu-α、および Zhou Wenwang) は、微調整された比較的小規模な PLM (UniLM、GPT、および T5) ほどのパフォーマンスは得られません。これは、ユーモアが言語を超えて共有される可能性があるため、多言語コーパスが有益な要素である可能性があるためであると考えられます。さらに、OpenAI は GPT3-Davinci の規模を開示していないため、そのパフォーマンスを公開されている中国の PLM と直接比較するのは不公平です。GPT3-Davinci は、使用されている中国の PLM よりもはるかに大きい可能性があるためです。また、これらの事前トレーニング済み中国語言語モデルは十分なトレーニング手順を経ていない可能性があるとも疑われていますが、これらの詳細は明示的に開示されていないため、そのような推測を検証することは困難です。
  • スケールはパフォーマンスの向上に役立ちます。T5-small と T5-base のパフォーマンスを比較すると、規模が大きいほど一貫してパフォーマンスが向上します。さらに、大規模な GPT-3 が自動評価でほぼ最高のパフォーマンスを達成することが観察されており、大規模な事前トレーニングによってクロストーク生成の品質が大幅に向上すると考えられています。
  • 大規模な事前トレーニング済み言語モデルの微調整。興味深いことに、表 5 の自動評価から、微調整された GPT-3 のパフォーマンスは、元の GPT-3 と比較してほとんどのメトリクスで劣っています。微調整メカニズムが、トレーニング データセットの過剰適合や一部の一般化機能の侵害などの結果をもたらした可能性があると疑われています。ただし、人による評価では、微調整された GPT-3 は元の GPT-3 よりも高品質のスクリプトを生成できます (表 7 を参照)。これは表 6 で確認できます。これは、クロストークの自動評価が適切である可能性があることを示唆しています。人間の認識には一貫性がないのと同じくらい良いことです。
  • 多様性メトリクスに関しては、Dist-1 と Dist-2 を使用した多様性測定により、大規模な事前トレーニングに基づくモデルがより多様なスクリプトを生成することが示されています。大規模な事前トレーニングはモデルの汎化能力を向上させる一般的な方法だからです。言語モデルのデコード段階では、多様性メトリクスがハイパーパラメータの影響を受けやすいことに注意することが重要です。表 5 では、これらの言語モデルの一般的なパフォーマンスを比較したり、一方の言語モデルの一般的なパフォーマンスが他方の言語モデルよりも優れていると結論付けるつもりはないことに注意してください。これらの言語モデルの一般的なパフォーマンスは、モデルのサイズ、ハイパーパラメーターの選択、トレーニング コーパスなどによっても影響を受けるためです。代わりに、中国語の生成を処理し、公開されている既存の言語モデルを単純に利用します。

事例分析

画像.png

人的評価

画像.png

設定

テスト セットでは 50 個のスクリプトがランダムに選択されました。最初の 10 文を Seq2seq、GPT、GPT-3、UniLM の入力として受け取ります。これらのモデルは、次の 10 文を文ごとまたは単語ごとに生成します。付録 C の Web ユーザー インターフェイスで詳しく説明されているように、元のスクリプトの最初の 10 文に基づいて生成された 10 文のスクリプトを評価しました。各スクリプトについて、参加者に 20 文 (元の 10 文と生成された 10 文を含む) を見せました。参加者は次のことを求められました: 1) 生成された各スクリプトの全体的な品質とユーモアを 5 段階のスケールで評価します (「5」が最高、「1」が最低)、および 2) 生成された各サンプルを評価します。フラグは二値スケール (はいの場合は「1」、いいえの場合は「0」) でスコア付けされます。私たちは無給のボランティアに、10 個のモデルから生成されたこれらの結果の評価に参加するよう依頼しました (T5-small は小さすぎて元のスクリプトが含まれていたため、除外しました)。15 人の参加者がすべての評価を完了しました。スコアは、すべての会話およびすべての参加者にわたる各モデルの平均スコアに基づいて計算されます。これらの参加者間のフライスのカッパは 0.366 でした。

人体評価の結果を表 7 に示します。元のスクリプトの創造性とユーモアが最高であることが証明され、おそらく人間の創造性とユーモアが現在の最先端の事前トレーニング済み言語モデルよりもはるかに優れていることが証明されました。これらの事前トレーニング済みモデルの中で、GPT-3 とその微調整バージョン (GPT-3-Davinci-finetuned) は、全体的な品質スコアの点で他のモデルを大幅に上回りました。興味深いことに、微調整された GPT-3 は自動評価ではパフォーマンスが悪くなりますが (表 5 を参照)、全体的な品質スコアではゼロサンプル GPT-3 よりも優れています。表 5 の自動評価と同様に、ゼロサンプルの大規模な事前トレーニング済み中国語言語モデル (3 番目のグループ) は、微調整された中規模の PLM (UniLM、T5、GPT など) よりもパフォーマンスが劣ります。Seq2seq のパフォーマンスは最悪です。これは、Seq2seq が事前トレーニングを利用していないことが原因である可能性があります。興味深いことに、CPM-large は他のモデルよりも不正なコンテンツを多く生成しました。この理由についてはさらなる調査が必要です。

結論は

人間の評価に基づいて、大規模な事前トレーニング済み言語モデルを使用するとクロストーク生成の品質を大幅に向上させることができますが、最適な生成方法では、元の言語モデルに匹敵する適度に良好な全体品質のクロストークを生成できると暫定的に結論付けることができます。スクリプト。比率は 65% (2.27 ~ 3.52) です。これは我々の予想とは程遠いものでした。

理由は 2 つ考えられます。まず、ユーモアの生成に使用される評価基準が不十分です。ユーモアの生成を評価できる評価基準が不足しています。表 5 と表 7 の間の矛盾を観察すると、BLEU と ROUGE の評価を使用したパフォーマンスの向上は、必ずしもユーモアの向上を意味するものではなく、BLEU または関連する指標が評価を生成するのに不適切ではないことを示している可能性があります。ユーモア自体は多様で主観的であり、テキストベースの真実がなければ、テキストベースの評価基準はユーモアの生成には意味がない可能性があります。言い換えれば、ユーモアには参照が必要ありません。人間による評価はコストがかかるため、モデルのトレーニング中にリアルタイムのフィードバックを提供できません。第二に、現在の方法ではユーモアの核となる要素が考慮されていません。ユーモアの核となる要素には、違和感、驚き、文化的共鳴、対人関係の影響が含まれます。これらがなければ、データのみに基づくトレーニングは、本物のユーモアを生成する穏やかな方法です。トレーニング データを記憶することができず、本物のユーモアを生成することはできません。

著者のメモ:

著者の記事の意味は、PLM はユーモアを理解できないようだということです。著者の仕事は改善できる可能性があります。この記事の著者の主な仕事は、クロストーク データ セットを使用してさまざまな PLM を直接微調整することです。その結果、私の考えは、まず言語モデルにユーモアのある文が何であるかを理解させ、訓練セットにユーモアのないデータを追加して、その文がユーモアのある文であるかどうかを判断するための損失を追加できるかどうかを判断することです。損失関数にはユーモラスです。これによりモデルは改善されるでしょうか?

さらに、著者は中国の事前トレーニング モデルのパフォーマンスの悪さについて、より詳細な調査を行っていません。

おすすめ

転載: blog.csdn.net/qq_51957239/article/details/135256171