ビッグ言語モデル: LLM の概念とは何ですか?

1. 説明

    

        ラージ言語モデル (wiki:LLM- ラージ言語モデル) は、サイズが大きいことを特徴とする言語モデルです。その規模は、主にインターネットから収集された膨大な量のテキスト データを処理できる AI アクセラレータによって可能になります。[1] によって構築された人工ニューラル ネットワークには、数千万から数十億の重みを含めることができ、自己教師あり学習および半教師あり学習を使用して (事前) トレーニングされます。Transformer アーキテクチャはトレーニングの高速化に役立ちます。[2] 代替アーキテクチャには、2017 年の Sparse Gated Architecture から始まり、[3] 2021 年の Gshard [4] から 2022 年の GLaM まで、Google によって提案された Mixture of Experts (MoE) が含まれます。 

        言語モデルとして、入力テキストを受け取り、次のトークンまたは単語を繰り返し予測することによって機能します。[6] 2020 年までに、モデルが特定のタスクを達成できる唯一の方法は微調整になります。ただし、GPT-3 などのより大きなサイズのモデルは、同様の結果を達成するために迅速に設計できます。[7] 彼らは、人間の言語のコーパスに固有の構文、意味論、および「オントロジー」だけでなく、コーパスに存在する不正確さや偏りについての特定の知識も習得すると考えられています。[8]

2. メトリクスの進化の歴史

        1600 年代初頭、エドマンド ガンターという数学者兼天文学者は、前例のない天文学的な課題に直面しました。惑星の複雑な動きを計算し、日食を予測するには、直感だけでは不十分です。複雑な対数方程式や三角方程式を習得する必要があります。そこで、他の賢明なイノベーターと同様に、ギュンター氏もゼロから構築することにしました。彼は、最終的にいわゆる計算尺となるアナログ コンピューティング デバイスを作成しました。

        計算尺は長さ30cmの長方形の木製ブロックで、固定フレームとスライド部分の2つの部分で構成されています。固定フレームには固定対数目盛が、スライド部には可動目盛が収納されています。計算尺を使用するには、対数の基礎と、乗算、除算、およびその他の数学演算のスケールを調整する方法を理解する必要があります。可動部分をスライドさせてセットの数値を揃え、結果を読み取り、小数点の位置を考慮する必要があります。おっと、これは本当に複雑です!

計算尺

        それから約 300 年後の 1961 年、ベルパンチ社は最初の電子卓上電卓「ANITA Mk VII」を発表しました。その後数十年にわたり、電子計算機はさらに洗練され、機能が追加されました。以前は広範な手動計算が必要だった作業の工数が大幅に削減され、従業員は仕事のより分析的で創造的な側面に集中できるようになりました。このように、現代の電子計算機は職務を再形成しただけでなく、問題解決スキルの向上への道も切り開きました。

電卓は、数学のやり方を大きく変えるものです。言語についてはどうですか?

3. 言語測定はまだ始まったばかりです

        文章をどのように生成するかを考えてみましょう。まずアイデアを持つ必要があります。次に、たくさんの単語(語彙)を知る必要があります。そして、それらを適切な文章(文法)にできるようにする必要があります。ちく、またかなり複雑ですね!

        私たちが言語の単語を生成する方法は、現代のホモ・サピエンスが最初に言語を作成した50万年前に遡ります。

公平を期すために言うと、私たちはまだギュンターが文章を生成するときに計算尺を使用していた時代にいます。

        考えてみれば、適切な語彙と文法を使用するということは、基本的にはルールに従うだけです。言語のルール。

        これは数学と似ています。ルールがいっぱいです。これが、なぜ 1+1=2 であると確信できるのか、そしてなぜ計算機が機能するのかということです。

必要なのは電卓ですが、それはテキストです。

        はい、言語が異なればルールも異なりますが、理解するにはいくつかのルールに従う必要があります。言語と数学の明らかな違いは、数学には固定された答えがあるのに対し、文に収まる適切な単語の数が大量になる可能性があることです。

        次の文を完成させてください: 私は ________ を食べました。次に出てくるかもしれない言葉を想像してみてください。英語には約10,000語あります。それらの多くはここで入手できますが、すべてではありません。

        「ブラック ホール」と答えることは、2+2=5 と言うのと同じです。また、「Apple」と答えるのは正確ではありません。なぜ?文法のせいで!

        過去数か月の間に、大規模言語モデル (LLM) が世界を席巻しました。これを自然言語処理のブレークスルーと呼ぶ人もいますが、人工知能 (AI) の新時代の幕開けと見る人もいます。

        LLM は人間のようなテキストを生成するのに非常に優れていることが証明されており、言語ベースの AI アプリケーションの水準を引き上げています。LLM は、その膨大なナレッジ ベースとコンテキストの理解により、言語翻訳やコンテンツ生成から仮想アシスタントやカスタマー サポート チャットボットに至るまで、さまざまなドメインに適用できます。

問題は、1960 年代の電子計算機のときと同じように、現在、LLM も変曲点にあるのでしょうか?

        この質問に答える前に、LLM はどのように機能するのでしょうか? LLM は、次に最適な単語を計算して予測するためのトランスフォーマー ニューラル ネットワークに基づいています。強力なトランスフォーマー ニューラル ネットワークを構築するには、大量のテキスト データでトレーニングする必要があります。これが、「次の単語/トークンを予測する」アプローチが非常にうまく機能する理由です。多くのトレーニング データがすぐに利用できるからです。LLM は、単語のシーケンス全体を入力として受け取り、次に可能性の高い単語を予測します。次に何が起こる可能性が高いかを理解するために、彼らは準備運動として Wikipedia をすべて読み、次に山積みの本に目を向け、最後にインターネット全体に目を向けます。

        私たちは、言語にはルールとパターンが含まれていることを以前に確立しました。モデルはこれらすべての文を調べることでこれらのルールを暗黙的に学習し、次の単語を予測するタスクを完了するために使用します。

ディープニューラルネットワーク

        単数形の名詞の後に続く単語は、「s」で終わる動詞である可能性が高くなります。同様に、シェイクスピアを読んでいるときに「doth」や「wherefore」などの単語を目にする機会が増えます。

        トレーニング中に、モデルはこれらのパターンを言語で学習し、最終的にはエキスパートになります。

しかし、それで十分でしょうか?言語ルールを学ぶだけで十分ですか?

言語は複雑で、文脈に応じて 1 つの単語が複数の意味を持ちます。

        したがって、自己焦点。簡単に言えば、自己注意は、文またはテキスト内の異なる単語間の関係を理解するために LLM によって使用されるテクニックです。ストーリーを理解するためにストーリーのさまざまな部分に注目するのと同じように、自己注意により、LLM は情報を処理するときに文内の特定の単語をより重視することができます。こうすることで、モデルは言語のルールに基づいて次の単語をただ盲目的に予測するのではなく、テキストの全体的な意味とコンテキストをよりよく理解できるようになります。

自己注意のメカニズム

LLM が単語計算ツールであり、次の単語を予測するだけである場合、どのようにして私のすべての質問に答えることができるでしょうか?

        大規模な言語モデルに何か賢いことをするように要求し、それが機能する場合、それが何千もの例を見てきたことを実行するように要求している可能性が高くなります。たとえ次のような非常にユニークなものを思いついたとしても、

「シャチが鶏を食べる詩を書いてください」

目に見えない波の中で、シャチは素早く鋭く狩りをします。海の王国ではダンスが始まり、鶏の運命としてシャチが勝ちます。

力強い顎で獲物を襲い、羽根を飛ばし、漂いながら、自然な流れで生と死がひとつになる物語を紡ぎ出す。

~チャット

        すごくいいですよね?自己注意メカニズムのおかげで、関連情報を効率的に組み合わせて照合し、もっともらしい一貫した応答を構築できます。

        LLM は、トレーニング中に、曝露されるデータ内の単語とフレーズ間のパターン、関連性、および関係性を認識することを学習します。この広範なトレーニングと微調整の結果、LLM は言語翻訳、要約、質問応答、さらには創造的な文章を実行する能力などの新たな特性を示すことができます。これらの関数は、多くの場合、モデルでの明示的なプログラミングの範囲を超えており、非常に優れたものになる可能性があります。

大規模な言語モデルは賢いのでしょうか?

        電子計算機は 60 年以上前から存在しています。ツール自体は飛躍的に改良されましたが、決してインテリジェントとは考えられていませんでした。なぜ?

チューリング テスト - チューリング テストは、機械が人間のような知能を示すかどうかを判断するための一見簡単な方法です。機械が人間と区別できない方法で人間と会話できる場合、その機械は人間の知能を持っていると考えられます。

        電卓は人間と同じ言語ではなく、数学の言語のみで通信するため、チューリング テストを受けたことはありません。一方、LLM は人間の言語を生成します。その訓練プロセス全体は、人間の言語を模倣することを中心に展開されます。したがって、「人間と見分けがつかない方法で人間と話す」ことができるのも不思議ではありません。

        したがって、LLM を説明するために「インテリジェンス」という言葉を使用するのは少し難しいです。インテリジェンスが実際に何を意味するかについて明確なコンセンサスがないからです。何かがインテリジェントであるかどうかを考える 1 つの方法は、それが何か興味深く、有用で、それほど明白ではないことを行うかどうかです。LLM はこのカテゴリに分類されます。残念ながら、私はこの解釈に完全に同意しません。

私はインテリジェンスを知識のフロンティアを拡大する能力と定義しています。

        この記事の執筆時点では、次のトークン/単語を予測するように訓練されたマシンはまだ知識のフロンティアを拡大することができません。

        ただし、トレーニングされたデータを補間することはできます。言葉の背後にある論理を明確に理解することはできず、知識の木も存在しません。したがって、異常な思考を生み出したり、洞察力を飛躍させることはできません。常に一貫した回答が得られ、平均的な回答が得られます。

それでは、これは私たち人間にとって何を意味するのでしょうか?

        LLM は単語計算機のように考える必要があります。思考を言語モデルに完全に委託しないでください。

        同時に、これらのモデルが急激に成長するにつれて、私たちはますます圧倒され、取るに足らないものであると感じるかもしれません。この問題の解決策は、一見無関係に見えるアイデアに常に好奇心を抱くことです。表面的には支離滅裂に見えても、周囲との相互作用に基づいて意味をなすアイデア。目標は、知識の最先端を生き、新しい点を作成し、接続することです。

        このレベルで作業する場合、電卓であれ大規模な言語モデルであれ、あらゆる形式のテクノロジは、心配する必要がある存続の脅威ではなく、使用できるツールになります。

おすすめ

転載: blog.csdn.net/gongdiwudu/article/details/132115422