AIサークルが爆発!Microsoft が Transformer のブロックを解除、シーケンス長が 10 億以上拡張

AIサークルが爆発!Microsoft が立ち上げた LONGNET は、Transformer のトークン処理能力を 10 億以上に拡張することに成功しました。

ご存知のとおり、トランスフォーマーの理解力と短いシーケンスの生成能力は以前から誰もが称賛していましたが、長いシーケンスに対しては常に「無力」でした。

今回のマイクロソフトの作戦は、短距離走のチャンピオンにマラソンを最高速度で走る能力を与えるのに等しい結局のところ、長いシーケンスを処理しながら、短いシーケンスのタスクを処理するときにも優れたパフォーマンスを維持します。

LONGNET は、シーケンスの長さを 10 億トークンを超えるトークンまで拡張できる Transformer のバリアントで、短いシーケンスでも損失はありません。

テクノロジーは共有とコミュニケーションを学ぶ必要があり、密室で作業することはお勧めできません。1 人で速く進むこともできますし、グループでより遠くまで進むこともできます。

良い記事はファンの共有、コミュニケーション、推奨と切り離せません。ドライ データ、データ共有、データ、および技術交換の改善はすべて、交換グループを追加することで取得できます。グループのメンバーは 2,000 人を超えています。メモを追加する最良の方法は: ソース + 興味の方向、同じ考えを持つ友人を見つけるのが簡単です。

方法①、WeChatアカウントを追加:mlc2060、備考:CSDN +アルゴリズムから
方法②、WeChat検索パブリックアカウント:機械学習コミュニティ、バックグラウンド返信:アルゴリズム

これに関してネチズンは「これは革命だ!」とコメントした。

なぜなら、この研究は長いシーケンスをモデル化するための新しいアイデアと可能性を提供するものであり、将来的にはインターネット コーパス全体をトークンとして扱うことさえ期待されています。同時に、より複雑な AI インタラクションが可能になることを意味します。

LONGNET アンパックシーケンスの長さ

Transformer モデルは多くの AI システムの中核となるアーキテクチャであり、その動作原理は、トークンで構成される情報シーケンスを処理してテキストを理解または生成することです。

注: トークンは短い単語または完全な文にすることができます。

世界的な注目のメカニズム

グローバルな注目は、トークンが他のすべてのトークンと「相互作用」できるようにする、Transformer の理解能力の鍵です。シーケンスが長くなると、相互作用の数が指数関数的に増加し、計算の複雑さが大幅に増加します。

前の段落は少し抽象的だったので説明すると、次のようになります。部屋にいる全員と別々の会話をしようとしていると想像してください。人数が少ない場合はこれで対応可能です。しかし、数が増えると、すぐに圧倒されてしまいます。

ChatGPT は Transformer に基づいて OpenAI によって開発されており、状況に応じた対話に使用すると、以前に彼に言った内容を「忘れてしまう」ことがよくあります。

将来的には、LONGNET を使用すると、ChatGPT の無制限の対話機能が解放され、最初の質問が記憶されるようになります。

LONGNET の中心: 注目を拡大する力

LONGNET の研究では、マイクロソフトの研究者が「拡張注意」と呼ばれる新しい概念を Transformer モデルに導入し、モデルがシーケンスを処理する方法を根本的に変えました。

拡張された注意の魔法は、距離が増加すると、各シーケンスが他のすべてのシーケンスと相互作用する必要がなく、より多くのトークンに注意を向けることができることです。

たとえば、群衆の中で、近くにいる人や遠くにいる人に注意を払うことはできますが、全員と個別に話す必要はありません。

凡例: LONGNET の拡張された注意によって使用される構成要素。短距離および長距離の依存関係をモデル化するための注意パターンのファミリーが含まれています。注意パターンの数は、シーケンスの長さに応じて調整できます。

これはスパース アテンション モデルに似ていますが、セグメント ツリーのアイデアを借用していますシーケンスの長さに応じて指数関数的に増加する相互作用の数を線形に増加させることができます。言い換えれば、シーケンスが長くなるにつれて、計算量の増加はより管理しやすくなります。

注意力を拡張すると、LONGNET がより効率的になるだけでなく、より柔軟になります。各シーケンスを操作する必要がないため、タスクに応じて注意の焦点を調整することもできるため、短いシーケンスでも長いシーケンスでも効果的です。

LONGNET は、一般的な言語タスクでも優れたパフォーマンスを発揮します。これは、長いシーケンスに特化したツールであるだけでなく、多くのタスクを処理できる堅牢かつ柔軟なモデルであることを意味します。

凡例: 異なる手法間の計算量の比較。N はシーケンスの長さ、d は隠れ層の次元です。

さらに、研究者らは LONGNET を従来のトランスフォーマーおよびスパーストランスフォーマーと比較しました。比較のために、これらのモデルのシーケンス長を 2,000 トークン (2K) から 32,000 トークン (32K) までスケールしました。公平な比較を保証するために、各モデルのパラメータを調整しました。特定の計算上の制限にもかかわらず、実験結果は依然として優れています。

同時に、モデル パラメーターを 1 億 2,000 万から 27 億に増やすと、LongNet の計算が増加するため、テスト セットの PPL も減少します。これは、LongNet がスケーリング則も満たしていることを示しています。より大きな言語モデルをトレーニングすると、パフォーマンスが向上する可能性があります。

LONGNET には制限がないわけではなく、たとえば、拡張アテンション メカニズムにより計算の複雑さは標準の Transformer モデルよりも低いレベルに軽減されますが、10 億を超えるトークンを含むシーケンスの処理には依然として多くのリソースが必要です。また、強力ではありますが、さらに多くのテストと検証が必要になる場合があります。

Microsoft はまた、LONGNET の将来の研究の方向性、つまり拡張されたアテンション メカニズムをさらに最適化する方法についても提案しました。拡張された注意力​​を補うことができる他のシーケンス処理技術はありますか? LONGNET を ChatGPT などの既存の AI システムに効果的に統合するにはどうすればよいですか?

用紙のアドレス:

https://arxiv.org/abs/2307.02486

参照元:

https://thetechpencil.com/revolutionizing-ai-with-longnet-microsofts-breakthrough-in-handling-billion-token-sequences-59b05ef7d6e8

おすすめ

転載: blog.csdn.net/2301_78285120/article/details/131622908