新しいシリーズが始まりました。周暁先生が論文を読み進めます。新しいものから古いものまで、さまざまな貴重な論文が随時更新されます。もちろん、時間があれば一人で読むのがベストです。見つけたら一人で読むのは面倒なので、読みに来てください。
古いルール、リンクは 1、2、3...
IEIT-Yuan/Yuan-2.0: Yuan 2.0 大規模言語モデル (github.com)
Yuan2 は、Yuan1 をベースにした Inspur の新しくリリースされた LLM です (Inspur について文句を言いたいです。Yuan1 の事前学習データは元々公開されていたもので、1T 以上のコーパスがあり、その大部分は中国語ですが、現在は閉鎖されています。
)
Yuan2 が書いた論文は非常に興味深いものですが、必要な計算能力の関係で、多くの事実に基づく実験を証明したり反証したりすることはできません。そのため、最初にこの論文の理論上の革新をいくつか見てみましょう。
1- マジックトランスフォーマー (LFA):
よりよく理解するために、Llama2 の構造を比較してみました。
変更はほぼ一目でわかりますが、マルチヘッダーのアテンション レイヤーを変更しました (厳密に言うと、完全な変更ではなく、前に何かが追加されただけです)。Transformer は何をしますか? 実際には Attification レイヤーで再生されます。なぜコア コンテンツを変更したのですか?
論文には次のように書かれています。
LLM の基本的な構成要素としての注意は、NLP タスク全体で大きな成功を収めています [9,10]。シーケンスが言語モデルに入力されると、アテンション メカニズムがトークンの各ペアの重みを学習して、入力シーケンス全体にわたる依存関係を構築します。このメカニズムは、近隣にあるトークンと遠くにあるトークンを同等に扱います。ただし、自然言語では、近くの単語の依存関係が遠くの単語よりも強いことがよくあります。アテンションによって学習された相互接続は、ローカル ドに関する事前知識がなくてもグローバルです。