ChatGPT の背後にあるコアテクノロジーが何であるかご存知ですか?

ChatGPT の背後にあるコアテクノロジーが何であるかご存知ですか?

更新: GPT-4 原則: https://yunyaniu.blog.csdn.net/article/details/129573291?spm=1001.2014.3001.5502

週末に、ChatGPT のコア テクノロジとその基礎となる原則、つまり学習と学習について整理しました。

いくつかのテスト実験

Workplace PUA: OpenAI のスーパー対話モデル ChatGPT をどのように評価するか? - ヤングの答え - 志胡 https://www.zhihu.com/question/570189639/answer/2788083617

小説を書く:OpenAIの超対話モデルChatGPTをどう評価するか?- Tian Yuandong の回答 - Zhihu https://www.zhihu.com/question/570189639/answer/2787584375

仮想マシン: OpenAI のスーパー対話モデル ChatGPT を評価するには? - モルトの答え - Zhihu https://www.zhihu.com/question/570189639/answer/2788647814


◎出典|知的学習と思考

いくつかの簡単なキーワードを入力すると、AI が短編小説や専門的な論文の生成を支援します。最近人気のChatGPTは、電子メール作成、テキスト翻訳、コード作成などのタスクで優れたパフォーマンスを発揮し、イーロン・マスク氏はAIの「危険性」を感じていると主張しました。ChatGPT の計算ロジックは、2017 年の科学研究論文「attention is all your need」から派生した、transformer と呼ばれるアルゴリズムに基づいています。当初、この論文は自然言語処理の分野に焦点を当てていましたが、その優れた解釈と計算性能により、AI のさまざまな分野で広く使用されており、近年、AI アルゴリズム モデルとして最も人気があります。この論文や変圧器モデルは、今日の AI テクノロジーの発展の縮図です。この前提に基づいて、この論文では、この論文の核心点と主な革新の意図を分析します。

Transformerの提案から「大規模・学習モデル」GPT(Generative Pre-Training)の誕生、GPT2の反復的兆候によるOpen AIの営利企業化、そして「輪の外」までGPT3 と ChatGPT の「業界を見る」、さらに詳しく 生物医学やインテリジェント製造などの重要な分野では、変圧器に基づく技術が生み出されてきました。この波を受けて、私の考えは次のとおりです。

第一に、インテリジェンスの分野では、将来長期間にわたり、「科学研究、計算能力、インフラストラクチャ、エンジニアリング、データ、ソリューション」のサイクルが急速に繰り返されることになるため、流動性とイノベーションは安定しません。むしろ、それはますます強くなるでしょう。製品に磨きをかける前に、テクノロジーがパッケージ化され、すべての知識が保護されるまで待つのは私たちにとって困難です。**将来的に競争に勝つのは、「製品化、科学研究、エンジニアリング革新の間のバランスを解決する」チームとなります。**研究開発に対する私たちの一般的な理解は実際にはエンジニアリングですが、AI の実践的な科学的性質により、チームはこの「流動性」をよりよく受け入れる必要があります。したがって、インテリジェンスに関心のあるすべての実務者または小規模パートナーにとって、完全な知識を理解することが非常に必要となっています。

第二に、この論文の議論を通じて、科学研究の最終段階で何が起こったのか、どのような速度とリズムで起こったのか、マイルストーンは何なのかをより直感的に理解できるようになります。私たちを真実の発見に導いたのは科学界のメッシでした;マイクロイノベーションとは何ですか? おそらく方向性は明確ですが、拡張の余地はまだたくさんあります。どちらがより錬金術に近いでしょうか? まだ解決中ですが、長い時間がかかるか、このままになるでしょう。

第三に、AI の分野では、技術的な理由により、より多くの論文がオープンソース コードになっており、一方では、より多くの人が改善の反復に参加することが奨励されていますが、他方では、科学研究と工学がシームレスに接続されており、紙は、コアコードからプラットフォームプラットフォーム、そして広範囲の特定のアプリケーションの価値の拡散までを推進することができます。**論文は、ビジネス価値や顧客価値の大幅な向上に直接つながる分野、追跡となる可能性があります。

第四に、AI技術の開発には多くの分野があり(知覚、認知、知覚は画像、音声、テキストなどに分けられ、認知も多くのレベルに分けることができます)、アルゴリズムのロジックには大きな違いがあります。 **トランスフォーマーの登場 各分野の融合がある程度進む兆し ** 全体を把握するには、この論文の明確な導入が役立つかもしれない。さらに、ChatGPT は現象レベルのアプリケーションであり、誰もがより直感的なエクスペリエンスを持っています。将来、このタイプのアプリケーションのエクスペリエンス向上と更新速度はさらに速くなるでしょう。その背後にあるロジックを理解することは、この傾向を把握するのに役立ちます。 。

論文紹介

本題に入り、この論文の紹介を始めましょう。これにはいくつかの技術的な詳細と公式が含まれます。詳しく調べる必要があるかもしれません (最初に資料を集めてください。15 ~ 20 分を確保しておくとよいでしょう)。読むとAIが理解でき、ぐっと深まります。

全体的な把握

この論文の構成は非常に洗練されており、質問をし、問題を分析し、問題を解決し、テストデータを提供します。トップ号の記事は、説明、コード、結果が簡潔にまとめられており、その中心となるのは次の図で、著者チームが Transformer のコア アルゴリズム構造を提案しています。

ここに画像の説明を挿入

記事全体はこの図を中心に説明されています。スペースの制限のため、主要な 1 つの行に焦点を当てます: 1. 記事で解決したい主な問題は何か 2. それを解決する方法 3. 記事から提案された解決策が使用される全体的な思考を促すため、内容を簡略化し、核心部分に焦点を当てます。

ここに画像の説明を挿入

この図に示されている内容を理解できれば、基本的にこの論文の内容の 85% を習得したことになりますが、これは最も重要な部分でもあります。

「attention is all your need」は主にNLPタスクを考慮して書かれたもので、Googleの数名の研究者によって完成されましたが、その背景の1つはGoogleが独自の並列コンピューティングチップやAI TensorFlow開発プラットフォームも推進していることです。このプラットフォームの主な特徴は並列コンピューティングであり、この記事のアルゴリズムも並列コンピューティングの実現を最大限に高めています。このアルゴリズムを結び付ける簡単な例を見てみましょう。

コアコンテンツ

要件は、中国語から英語への翻訳用のモデルをトレーニングする必要があることです。

背景知識: この要件は、「翻訳: I love you to I love you」を y=f(x) 問題に置き換えることです。x は中国語を表し、y は英語です。トレーニングが完了したら、トレーニングを通じて f() を取得する必要があります。 f() が成功すると、変換を実現できます。誰もが戦っているのは、誰のトレーニング方法がより正確で効率的であるか、そして誰の f() がより適切に使用されるかということです。

従来の自然言語処理の主なアルゴリズムはRNN(Recurrent Neural Network)と呼ばれるもので、その主な実装ロジックは各「単語」が計算された後、その結果を2番目の単語に継承するというものでした。このアルゴリズムの欠点は、大量の逐次計算が必要で非効率であることです。そして、比較的長い文に遭遇した場合、それまでの情報が薄められる可能性が高く、その結果、モデルが不正確になる、すなわち、長い文に対する効果が減衰することになる。これは、この記事が解決することに専念している問題です。つまり、この記事にはトレーニングのためのより優れた f() メソッドがあることを意味します。ChatGPTが論文として使えることを想像して感じてみてください。

Transformer では、著者は、文内の単語のより正確な意味を判断するために、文内の各単語とすべての単語を計算し、単語と各単語の間の相関関係を計算することを提案しています。

ここで、いくつかの技術的な詳細を入力し始める前に、機械学習の分野の中核概念の 1 つである「ベクトル」についてよく理解しておく必要があります。デジタル時代では、数学的演算の最小単位は自然数であることがよくあります。しかしAIの時代では、この最小単位がベクトルになります。これは、デジタル時代のコンピューティングとインテリジェンス時代のコンピューティングの最も重要な違いの 1 つです。

たとえば、銀行では、個人の信用限度額を判断するためにベクトルを使用して表します。

ここに画像の説明を挿入

ベクトルはデータの集合であり、非常に高次元の空間内の点として想像することもできます。特定の信用限度ベクトルは、8 つの特徴で構成される高次元空間内の点です。高次元空間のデータは、線形分離性などのより多くの数学的特性を示すため、より多くの隠れた法則を把握しやすくなります。

ベクトルの加算、減算、乗算、除算は、コンピュータがサンプル トレーニングを実行するための最も重要な計算ロジックです。

**Transformer モデルの主な意義は、アルゴリズムを見つけ、単語を 3 つのステップで段階的に高次元空間に分割し、その過程で他のアルゴリズムよりも優れた情報を単語に与えることです。**多くの場合、この高次元空間にはさまざまな意味があり、このベクトルによって与えられる情報がより正確で現実の状況に近づくと、その後の機械学習作業が容易になります。先ほどの信用限度ベクトルの例を見てみましょう

ここに画像の説明を挿入

これら 2 つのベクトルは 2 つの異なるベクトル空間に存在しますが、主な違いは、前者にはもう 1 つのベクトル特徴「年収」があることです。人の与信限度額を判断する場合に考えてみますが、「年収」は非常に重要な要素なのでしょうか?

上の例は固有値を加算するだけの単純な例ですが、変換器ではさらに複雑になり、行列の加減乗除によって複数のベクトル情報を総合的に計算し、ベクトルに新たな意味を与えます。

ベクトルの重要性を理解したところで、トランスフォーマーの 3 つのステップを振り返ってみましょう: 1. 埋め込み 2. 位置エンコーディング 3. セルフアテンション。

たとえば、スマート ジョンが歌っている文を中国語に翻訳します。

まず、文の各単語をベクトル化します。

まず「John」という単語を見てみましょうが、コンピュータが認識できるように、「John」の文字配列の表現を 512 次元ベクトルの John に変換する必要があります。John はこの 512 次元空間内の点であり、これが最初のステップであるエンコード (埋め込み) であることを説明します。

もう一度、2 番目のステップ: **位置エンコーディング、**次の式を使用します (これがこの論文の革新です)

ここに画像の説明を挿入

新しい高次元空間を微調整し、新しいベクトルを生成します。

ここに画像の説明を挿入

この式についてあまり心配する必要はありません。その中心的な意味は次のとおりです: 1. この新しいベクトルでは、各ビットは元の 0 と 1 で表され、それぞれ sin と cos で置き換えられます。この目的は、 sin と cos の法則では、この新しいベクトルが John という単語の意味を表すだけでなく、Smart John が歌っている文中の John の位置情報も表すものとします。理解できない場合はそのまま無視して構いません。2 番目のステップでは、文中のジョンの位置情報を「ジョンという単語を表すベクトル」に追加することを覚えておいてください。John はもはや独立した単語ではなく、特定の文内の単語ですが、文内の他の単語の意味はまだわかっていません。

最初のステップのコンピューターが John が何であるかを理解すると、2 番目のステップのコンピューターは「*John**」を理解します。

最後に、第 3 ステップ:自己注意メカニズム (Self-Attendance)、注意 (Q、K、V) アルゴリズムを通じて、ジョンを再び新しい空間情報に置き、設定します。

画像

この新しいベクトルには、ジョンの意味、文中のジョンの位置情報だけでなく、ジョンと文中の各モナドの意味との関係と値の情報も含まれています。言葉としてのジョンは一般的な用語であることは理解できますが、スマート ジョンはより具体的なものであり、スマート ジョンを歌うことはさらに一歩近づいています。さらに、アテンション (Q、K、V) アルゴリズムは単語を中心に計算するのではなく、単語と文内のすべての単語を計算します。空間内の単語の位置を計算によって調整します。

この手法は超長文でも威力を発揮しますが、最も重要なのは時系列の壁を一気に突破することです画像と NLP アルゴリズムの以前の分割は NLP の明らかな時系列特性によるところが大きいですつまり、各単語は次の単語とより明白な時間的関係を持ちます。しかし、Transformer アルゴリズムはこの制約を破り、単語と文内の各単語の値の重みにさらに注意を払います。これが、Transformer がどこでも使用できる主な理由です。

画像

計算プロセス

具体的な計算処理は、「I love you」から「I love you」への翻訳文を例にします(こちらの文の方が簡単です)。まず、文の位置情報をベクトル化して吸収し、文の初期ベクトル群を取得する。

画像

(サンプルでは各文の長さが異なるため、各文は 512*512 の行列になります。長さが足りない場合は 0 に置き換えてください。このように、文がどれだけ長くても、トレーニング中に同じサイズの行列を表します。もちろん、512 はスーパー パラメーターであり、トレーニング前に調整できます。)

次に、各単語の初期ベクトルに 3 つのランダムな初期行列 WQ、Wk、Wv をそれぞれ乗算して、3 つの量 Qx、Kx、Vx を取得します。以下の図では例として「I」を使用しています。

画像

次に、各単語の注目値を計算します。たとえば、単語「I」の注目値は、単語「I」の QI と文中の他の単語の K 値を乗算することです。2 を掛けることの数学的意味は、行列は、2 つの行列の類似性を測定します。次に、SoftMax 変換 (計算方法について心配する必要はありません) を通じて、単語と各単語の重みを計算します。合計したときの重み比は 1 に等しくなる必要があります。次に、各重みに対応する V 値が乗算されます。このアテンション値を取得するためにすべての製品が追加されます。

画像

この注目値は、単語「I」自身の情報や位置情報に加え、文中の各単語の相関情報である。

すべてのアテンション係数の計算ロジックでは、各単語の初期行列 WQ、Wk、および Wv のみが未知であることがわかります (これら 3 つの行列はすべての単語で共有されます)。次に、この変換器を入力、出力、およびこの W 行列に関する方程式に単純化できます。ここで、X は入力テキスト情報、Y は翻訳情報です。

画像

ここで機械学習の基礎を紹介する必要があります。Transformer アルゴリズムは本質的にフィードフォワード ニューラル ネットワーク モデルであり、その基本的な計算ロジックは、複雑な隠れ層に関係なく、Y=f(x)=wx と仮定することです (目標は依然として f()) を計算し、次に w0 をランダムに設定し、y=w0x のコスト関数の計算を開始し、次に w0 を w1 に変更し、y=w1x のコスト関数を計算するというように、無数の w を計算することです ( Countless ではなく、それも収束します)、次に、どの w が最小のコスト関数を持つかを比較します。これは、トレーニングした f() です。次に、変換器では、これら 3 つの初期行列が w0 になります。

トランスフォーマーの話に戻りますが、注意を計算した後、各単語が意味関係に従って新しい高次元空間に入力される、これが自己注意(自己注意メカニズム)です。

しかし、トランスフォーマーでは、1 つの空間を置換する代わりに、マルチヘッド アテンション メカニズムと呼ばれる複数の高次元空間が置換されます (この記事では、より明確な理論的裏付けが提供されていません。なぜマルチヘッドなのか)。

画像

主な理由は、トレーニング時に効果があるためですこれもAIの科学研究論文の特徴で、非常に高い科学研究リテラシーと感性で方向性を見出すことが多く、実験を通じて確かに効果があるものの、完全な理論的裏付けはできない場合があります。これにより、フォローアップ研究者にさらなる改善の余地が与えられることがよくあります。

事実は、注意 (Q、K、V) の効率を向上させる方法が、変圧器フィールドの反復の最も速い部分であることを証明しています。その後、Bert アルゴリズムが事前学習メカニズムを提案して主流になりました。これについては後でさらに紹介します。

もちろん、この文の論理関係は、トレーニングのためにさまざまな高次元空間に配置されていることが後からわかります。その目的は、より多くの情報を取得するためであり、この部分により、研究者は空間の応用についてより深い理解を得ることができます。

上記の内容以外にも、マスク機構、層ノルム、ニューラルネットワークの励起関数飽和領域制御など、技術的なポイントがいくつかありますが、紙面の都合や技術内容の都合上、一つ一つ紹介することはできません。

マルチヘッドセルフアテンションのメカニズムを理解していれば、基本的にこの論文の重要な内容の 85% をマスターしたことになり、現在もその影響力を急速に拡大している変圧器モデルをより直観的に理解できるようになります。

感動的な収穫

理論研究の進展の観点から

1. Transformer が時系列計算のロジックを破り急速に輪から外れ始め、もともと比較的独立していた複数の AI 分野が技術的に統合され始めた。さらに詳しく見てみると、**Transformer はタイミングを壊す可能性があります。並列コンピューティングの計算パワー モードが、より複雑な計算にコスト パフォーマンスの可能性をもたらすことは非常に重要です。コンピューティング能力のさらなる向上により、AI のさまざまな分野での統合が確実に実現され、より多くのインフラストラクチャ レベルのモデルとアルゴリズムが引き続き登場するでしょう。**AI、画像、NLP の分野では、知覚と認知の分野における専門的な分業が徐々に曖昧になっていきます。

第二に、AI 研究には実験的な性質があります。核となるアイデア以外にも明らかになった技術的解決策は確かにたくさんありますが、まだまだ改善の余地は多く、変圧器を中心としたマイクロイノベーションは今後も加速し、繁栄していくものと予想されます。

3. 「Attention is all your need」は業界ではよく知られていますが、よく見てみると、多くのコンテンツも借用していることがわかります。 ) のクエリ、キー、値はインターネット推奨システムです標準的な方法論です。Transformer アルゴリズム全体も大規模なニューラル ネットワークであり、アルゴリズムは先行アルゴリズムに基づいて段階的に反復的に開発されますが、反復速度は明らかに加速しています。

理論、アルゴリズム、アーキテクチャ、エンジニアリングの観点から

4. AI アルゴリズム研究の分野では、アルゴリズム、オープンソース コード、エンジニアリング、およびコンピューティング能力が飛躍的に成長しています。

画像

下の図はトップジャーナルの学術論文に占めるオープンソース論文の割合を示しており、このデータは近年急速に増加しています。科学研究プロセスと工学プロセスはますます交差しています。オープンソース コミュニティとオープンソース文化自体も、アルゴリズムとエンジニアリングの急速な発展を推進しています。

画像

「より多くの人が参加し、より多くの分野の人々が参加するようになりました。コンピューティング能力、AI インフラストラクチャとコード、オープンソースの知識共有のコストが徐々に低下するにつれて、科学研究とエンジニアリングの境界線も曖昧になってきました。これはサッカーに似ています。」この法律に従うと、サッカー人口の増加に加えて、才能のある選手メッシの出現の可能性も高まります。

データとその後の開発の観点から

5. ChatGPT の成功は大量のデータ トレーニングによるものですが、単純な対話対話や翻訳に加えて、大規模な回答、さらには紙レベルの回答でさえサンプル データがまだ不足しています (アルゴリズム トレーニングに必要なサンプル データには明確さが必要です) X と Y)。さらに、Transformer アルゴリズムは、初期段階で 3 つの行列をランダムに生成し、段階的に最適化する必要があるため、他のアルゴリズムに比べて大量のデータを必要とします。Transformer に加えて、もう 1 つのテクノロジーである Bert も、技術開発にとって非常に重要な現象レベルのアルゴリズムです。そのコアは単純化された Transformer で、Bert は A から B に変換しません。X 内のいくつかの単語または文をランダムにカバーして、アルゴリズムがカバーされた部分の予測を最適化できるようにします。この考え方により、バートはトランスフォーマーの事前トレーニングに最適なパートナーになります。

画像

Bert を通じて事前トレーニングが実行される場合、それはマトリックスに事前知識を追加することと同じであり (以前のトレーニング ロジックはマシンにヒントを与えず、後者のルールの基本的な知識)、初期トレーニングの精度が向上します。正式なトレーニング中に行列を作成し、その後の変換器の計算効率とデータ量の要件を大幅に改善します。実際には、たとえば中国国家図書館の書籍をトレーニングしたい場合、各書籍の情報とこの書籍の説明、または中国語の書籍に対応する英語の書籍が必要になります。しかし、現在では、ラベルを付けずに多くのコンテンツをトレーニングできるようになり、トランスフォーマーを通じてサンプル データを微調整するだけで済みます。このため、ChatGPT には改善の余地が多くあり、このような大規模なモデルがさらにすぐに登場することが予想されます。

6. Transformer はより高度なニューラル ネットワークの深層学習アルゴリズムであるため、データ量に対する高い要件があり、ネットワークに対する GAN など、小さなデータから大きなデータを迅速に生成する方法のアルゴリズムも生まれました。AIGC分野のコア技術です。データ量不足の問題を解決するために、スモールデータ情報をより効率的に抽象化することに加えて、スモールデータをビッグデータに補完する方法も増えており、これらの方法は急速に成熟しています。

7. 機械学習アルゴリズムには多数のハイパーパラメータが存在することがわかりました。たとえば、トランスフォーマでは、マルチヘッド機構には数 N 個のヘッドが必要であり、テキストがベクトルになるかどうかは 512 以上であり、学習率は高くなります。トレーニング前に事前に設定する必要があります。長いトレーニング時間と複雑なパラメーターのため、より良い計算効果を探索するには非常に長い時間がかかります。Transformer を例にとると、自動機械学習には、ベイジアン計算 (より良いパラメーター構成の確率を見つけるため)、強化学習のアイデア (不確実な環境で貪欲なアルゴリズムが最適値に素早く近づくため) など、多くのルートが必要です。 ) ); さらに、新しいトレーニング ネットワークを見つける方法 (トランスフォーマー、RNN、MLP などが順列と組み合わせを共同で使用する) などがあります。

科学研究の発展はパラメータ化を重視し、産業の発展は自動化を重視し、両者は統一されているように見えますが、実際の運用プロセスでは非常に困難で矛盾することがよくあります。これは、冒頭で述べた製品化と科学研究の流動性のバランスが重要な分野でもあります。

おすすめ

転載: blog.csdn.net/sinat_36458870/article/details/129659344