Transformer は、大規模な言語モデルの最も包括的な在庫である地球を征服しようとしています。

ここ半年でChatGPTが世界中で普及するにつれ、Transformerアーキテクチャに基づく大規模言語モデル(LLM)も徐々に世間に認知されるようになり、AI分野におけるTransformerの影響力は少なからずあると言えるでしょう。 SFの分野におけるトランスフォーマーのこと。

Transformer の中心となるアイデアは、セルフ アテンション メカニズムを使用してシーケンス間の依存関係を確立することです。ほんの 2 年前、多くのモデルは主に長期短期記憶 (LSTM) やリカレント ニューラル ネットワーク (RNN) のその他のバリアントに基づいていましたが、現在では大規模な言語モデルが Transformer の注意メカニズムに基づいています。 AI 分野は、従来の機械学習からニューラル ネットワーク、そして今日の Transformer に至るまで急速に発展しています。

人工知能開発の方向性

現在、大規模な言語モデル市場は花 (xuè) (yƔ) (xīng) (fēng) でいっぱいです。そのため、ネットワーク全体で最も包括的である可能性がある大規模な言語モデルのリストを作成しました。誰もが AIGC 時代の鼓動を把握することができます。

この記事を読んで収集すると、次のことがわかります。

グローバル言語モデルの開発コンテキストと系譜マトリックス

Google と Microsoft の 2 つの陣営における大規模言語モデルの反復プロセス

主要なグローバルおよび国内言語モデルのインベントリ

グローバル大規模言語モデルの開発履歴

以下の図は、2019 年以降の数百億パラメータ規模の大規模言語モデルのリリースのタイムラインを示しています。黄色でマークされた大規模モデルはオープンソース化されています。 2022年以降、新しいモデルが絶え間なく登場しており、OpenAIやGoogleの大型モデルのイテレーション速度が他メーカーに比べて大幅に速いことがわかります。

大規模言語モデルの開発傾向

グローバル大規模言語モデルの家系図マトリックス

次の表は、主要な大規模言語モデルの家系図を示しており、異なる色で異なる技術的起源を表しています。横軸はタイムライン、縦軸はモデルトレーニングのパラメータスケールです。 2018 年以来、大規模言語モデルのトレーニングの規模は拡大し続けており、2022 年はパラメータの規模においても爆発的な年となるでしょう。

大規模言語モデルパラメータスケール象限

大規模言語モデル技術ロードマップの系譜関係

巨人対決: Google と Microsoft の競争は激化し続ける

11 月 22 に、OpenAI は、GPT-3.5 シリーズに基づく新しい会話型 AI モデルである ChatGPT をリリースしました。この反復的なアップグレードには、時代を超えた重要性があります。今年 2 月に、Microsoft は検索エンジンを再定義するために ChatGPT を Bing に統合しました。3 月には、マルチモーダルな大規模言語モデルを開始 「理解+創造」の能力を強化した GPT-4 をリリース。

OpenAI が立ち上げた GPT シリーズに直面して、Google は注視しており、今年 2 月と 3 月に、ChatGPT のベンチマークとなる Bard と史上最大のマルチモーダル具体化視覚言語モデル PaLM-E を立ち上げ、Google は 5 月 11 日に正式に発表しました。 「Counter Attack」では、GPT-4 の問題点に直接対処するために大規模な言語モデル PaLM2 をリリースし、同時に AI を 25 以上のアプリケーションに統合しました。

Microsoft 対 Google のリリース アップグレード

大規模な言語モデルのトレーニング データ ソース

大規模な言語モデルのトレーニング データ ソースから、これらのモデルは主に Web ページ データをクローリングすることによってトレーニングされていることがわかります。GPT-3 では、Web ページに基づいて書籍情報も追加されています。興味深いのは、DeepMind によって開発された AlphaCode トレーニング データ ソースはすべてコードであり、プログラミングにおいて強力な機能を備えていると推測できることです。 AlphaCode は、2022 年に Codeforces が開催した 10 件のプログラミング コンペティションに参加し、上位 54.3% にランクされ、参加者の 46% を破り、Elo スコア 1238 を獲得したことがわかります。

さまざまな大規模言語モデルのトレーニング データ ソース

大規模な言語モデルのトレーニング ハードウェア リソース

大規模な言語トレーニングは大量のハードウェア リソースを消費します。トレーニング チップとしての GPU の初期の使用に加えて、多くの大規模言語モデルでは現在、メインのトレーニング チップとして TPU を使用し始めています。一方で、ハードウェアの急速な発展により、間違いなく大規模言語モデルの反復効率が向上しましたが、他方では、大規模言語モデルの熾烈な競争により、主にチップやサーバーなどのハードウェアの価格が高騰しています。 。 Jiemian News によると、NVIDIA の AI フラッグシップ チップ H100 の価格は複数のチャネルを通じて 40,000 米ドルと推測されており、これは小売業者が提示した以前の価格 36,000 米ドルに比べて大幅な値上がりです。10,000 個の NVIDIA A100 チップが、大規模な言語モデルを開発しています。

大規模言語モデルのトレーニング用のハードウェア リソースの比較

主要なグローバル言語モデルの一覧

世界的な観点から見ると、大規模言語モデルの主な発行者には、Google、OpenAI、Facebook、Microsoft、Deepmind、EleutherAI が含まれます。モデルパラメータのスケールは主に数百億から数千億であり、技術アーキテクチャは主にエンコーダ-デコーダです。以下の表にリストされているモデルの数は 100 近くありますが、さらに多くなるはずです。

主要なグローバル言語モデルの比較

主要なグローバル言語モデルの一覧

国内大規模言語モデルの在庫

もちろん、大規模言語モデルの火は、国内テクノロジー企業の大規模言語モデルに対する熱意にも火を付け、初期の自己研究モデルまたはオープンソース モデルに基づいて、多くの国内機関が大規模言語モデルを立ち上げました。不完全な統計によると、 20社以上あります。

おすすめ

転載: blog.csdn.net/mockuai_com/article/details/131660688