トランスフォーマーの前のテキスト生成

1. Transformer の前にテキストを生成する

生成アルゴリズムは新しいものではないことに注意することが重要です。以前の言語モデルでは、リカレント ニューラル ネットワーク (RNN) と呼ばれるアーキテクチャが使用されていました。RNN は当時は強力でしたが、ここに画像の説明を挿入
生成タスクを適切に実行するには大量の計算とメモリが必要だったため、その機能には限界がありました。単純な次単語予測生成タスクを実行する RNN の例を見てみましょう。

モデルは前の単語を 1 つしか見ていないため、予測はあまり良好とは言えません。テキスト内のより多くの先行単語を表示できるように RNN 実装をスケールアップする場合、モデルで使用されるリソースを大幅にスケールアップする必要があります。予測に関して言えば、ここではモデルは失敗します。
ここに画像の説明を挿入

モデルをスケールアップしたとしても、適切な予測を行うのに十分な入力がまだ得られていません。次の単語を正しく予測するには、モデルは前の単語以上のものを認識する必要があります。モデルは文全体、さらには文書全体を理解する必要があります。ここでの問題は、言語が複雑であるということです。

多くの言語では、単語が複数の意味を持つことがあります。これらは同音異義語です。この場合、その銀行がどのような種類の銀行であるかは、文の文脈でのみわかります。
ここに画像の説明を挿入

文の構造内の単語があいまいになる、または構文のあいまいさと呼ばれる場合があります。たとえば、次の文を考えてみましょう: 「先生は本で生徒に教えます。」 先生は本で教えますか、生徒は本を持っていますか、それとも両方ですか? 私たち自身が人間の言語を理解できない場合がありますが、アルゴリズムはどのようにして人間の言語を理解できるのでしょうか?
ここに画像の説明を挿入

さて、2017 年、Google とトロント大学が「必要なのは注意だけ」という論文を発表してからすべてが変わりました。トランス アーキテクチャが登場しました。
ここに画像の説明を挿入

この斬新なアプローチは、今日私たちが見ている生成 AI の進歩を解き放ちました。マルチコア GPU を使用するように効率的に拡張でき、入力データを並列処理し、より大きなトレーニング データセットを使用できます。そして重要なことに、処理している単語の意味に注意を払うことを学習できます。必要なのは注意力だけです。それがタイトルです。
ここに画像の説明を挿入

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/vSAdg/text-generation-before-transformers

おすすめ

転載: blog.csdn.net/zgpeace/article/details/132379860