ChatGPT はどのようにして心を生み出したのでしょうか? | JDクラウド技術チーム

1. はじめに - ChatGPT は本当に心を生み出したのでしょうか?

スタンフォード大学の最新の研究結果は、発表されるやいなや学界にセンセーションを巻き起こし、「もともと人間に特有だと考えられていた心の理論(ToM)が、ChatGPTの背後にあるAIモデルに現れた」というものでした。いわゆる心の理論とは、共感、感情、意図などを含む、他者または自分自身の精神状態を理解する能力です。この研究で、著者は、GPT3 の davinci-002 バージョンがすでに、7 歳児に相当する心の理論タスクの 70% を解決できることを発見しました。

2023 年、圧倒的な AI アプリケーションに直面して、私たち人類はついに何かが永遠に変わってしまったことに気づきました。しかし、この AI ブームの波の中で、本当に恐ろしいアプリケーションは 1 つだけです、ChatGPT です。心は定量的に判断できないため、ChatGPT は推論、計画、問題解決、抽象的思考、複雑なアイデアの理解、迅速な学習などの知能の定義を満たしています。しかし、ChatGPT が行うことは基本的に 1 つだけです。それは書き続けることです。最初の N 個の単語を与えるときに、モデルが「N+1」番目の単語が何である可能性が高いかを教えてくれる場合、モデルは言語の基本法則を習得していると考えられます。

なぜ「書き続ける」だけで知性が生まれるのか?以下は Zhihu からの回答です。

「なぜ、このような単純な会話能力によって、ChatGPT はさまざまなタスクを解決できるように見えるのでしょうか? それは、人間のタスクのほとんどが言語ベースだからです。私たちが何かを前に言うとき、言葉をつなげばタスクは完了します。」 「大きな言語モデルとして、ChatGPT の目的は "単語を接続する" ことであり、単語を接続することで、無意識のうちにさまざまなタスクを完了するのに役立ちます。」 これは、ChatGPT が時々ナンセンスなことをする理由も説明しています。何が正しいか間違っているかはわかりませんが、彼はただ会話をスムーズに続けたかったのです。

もし上記のとおりだとすると、GPT は我々が想像していたほど魔法的なものではなく、大量のテキストから最も高い確率で次の単語を予測する、ビッグデータと統計に基づいた言語モデルにすぎないようです。学びます。まるで巨大な容量の「データベース」が存在し、すべての答えはそこから得られるようなものです。

しかし奇妙なことに, ChatGPT は彼が勉強していない質問にも答えることができるということです. 最も代表的なものは, 訓練セットには存在し得ない 6 桁の加算です. これは, 次に高い確率の数値を統計的に予測することは明らかに不可能です. いくつ.

それだけでなく、GPT は会話中にその場で学習する能力も学びました。

「書き続ける」ことに加えて、ChatGPT は論理的推論能力を本当に開発したようです。統計以外のこうした新しい能力はどのようにして現れるのでしょうか?

機械に言語を理解させるにはどうすればよいか、コードに知識を保存するにはどうすればよいでしょうか? この記事は、「コードの一部はどのようにして心をもつのでしょうか?」という質問に答えることを目的としています。

2. 必要なのは注意だけです - 注意メカニズム

ChatGPT に関するすべての記事を検索すると、「Attending is all you need」という 1 つの単語が非常に頻繁に出現することがわかりました。ChatGPT はすべて「アテンション メカニズム」の上に構築されており、GPT の正式名称は Generative Pre-trained Transformer であり、このトランスフォーマーはアテンション メカニズムによって構築された深層学習モデルです。これは、2017 年の 15 ページの論文「attention is all you need」から来ています [1]。GPT2 と GPT3 に関する OpenAI の 2 つの論文 [2][3] と組み合わせることで、この大規模な言語モデルを分解し、彼が話すときに正確に何が起こるかを確認できます。

注意メカニズムの誕生は、人間の脳の思考方法から来ています。たとえば、この段落を読んでいるとき、あなたの注意は左から右へ、単語ごとに点滅し続け、その後、文全体に集中します。これらの単語の間には、いくつかのキーワードにも注目が集まりますが、これらすべてが瞬く間に起こります。

注意メカニズムに基づく Transformer および GPT シリーズ モデルは、機械が文内の単語間の関係と意味を理解し、次の単語の続きを完了し、再度理解して続行できるようにすることで、この思考プロセスをシミュレートします。単語、そして最後に段落。これを模倣するプログラムを作成するのは簡単ではありません。機械に文字を計算させる方法、コードに知識を保存させる方法、上記のモデルフレームワークのユニットを分解すると、なぜ円と線ばかりになるのでしょうか?

したがって、AI を研究する最初のステップは、上の図の円が何ができるかを理解することです。

2.1 ニューロン - 円と線

一連の円と線は、1957 年の論文「パーセプトロン: 脳内の情報保存と組織化の確率的モデル」にも登場しました [4]。これは、今日のさまざまな AI モデルの基本単位です。ニューラル ネットワークとも呼ばれます。1 世紀前、科学者たちは人間の脳がどのように機能するかを大まかに把握していました。これらの円はニューロンをシミュレートし、線はニューロンを接続してニューロン間で信号を伝達するシナプスです。

3 つのニューロンを接続すると、アクティブな場合は 1 を出力し、アクティブでない場合は 0 を出力するスイッチが得られます。スイッチは、白か黒かを表現したり、白と黒を区別したり、類似したカテゴリをマークしたりすることができますが、最終的には、それらはすべて 1 つのもの、つまり分類にすぎません。過去数十年にわたり、人類の最も聡明な頭脳の無数の人々が行ってきたことは、知性を生成するために、さまざまな方法でこれらのサークルを接続することでした。

この Web サイトでは、より多くのニューロン分裂問題をシミュレートできます。1 つのニューロンが処理できる状況はまだ限られており、明らかに 2 つのデータを分離することはできますが、内側の円と外側の円のデータを分離することはできません。しかし、活性化関数を追加して新しいニューロンを追加すると、新しいニューロンごとに境界に 1 つまたは 2 つのポリラインが追加され、さらに多くのポリラインが円のように境界を囲み、最終的にこの分類が完了します。

分類することで多くの特定の問題を解決できます。上図の各点の X 軸と Y 軸がそれぞれ子犬の年齢と体重を表す場合、これら 2 つの値を使用して 2 つの異なる品種を区別できます。各点が表す情報が多ければ多いほど、より複雑な問題を解決できるようになります。たとえば、784 ピクセルの写真の場合、784 個の数値を使用して分類を表すことができ、これらの点によって写真を分類できます。より多くの線、より多くの円、基本的にはすべて分類を改善するためのものです。これは、現在最も主流の AI トレーニング ソリューションであり、ニューラル ネットワークに基づくディープ ラーニングです。

分類ができるようになると、ある程度の創造ができるようになります。

ディープラーニングの本質は実は統計であり、円と線を経て最終的には最終的に到達し、誰もが使用できるツールになることに、多くの業界学者が気づいたのはこのためです。GPTシリーズを分解すると、この円と線だけが露出します。しかし、分類や統計は本当に人間の思考を模倣できるのでしょうか? 議論する前に、まずソリティアというイディオムの基礎となる原則を理解しましょう。

2.2 イディオムソリティア

2018 年の初代 GPT の原論文 [5] では、GPT シリーズのモデル構造を見ることができます。前述のアテンションのメカニズムを思い出してください。この層はアテンション エンコーディング層と呼ばれます。その目的は、人間の注意を模倣し、発話間の意味を抽出することです。このようなエンコーディングを 12 個積み重ねることにより、テキストは下に進み、出てくるものが次になりますGPTによって予測された単語。

たとえば、「調子はどうですか」と入力すると、モデルは次の単語「doing」を出力します。次に、真ん中で何が起こったのかを解明する必要があります。

「How are you」と入力すると、これら 3 つの単語が 3 つの 1024 次元ベクトルに変換され、各ベクトルに位置情報が追加され、最初の単語は How is、2 番目の単語は Are というように示されます。つまり、最初のアテンション エンコーディング層に入り、計算後、3 つの異なる 1024 長のベクトルになり、次に 2 番目の層と 3 番目の層に進み、24 のアテンション エンコーディング層すべてで計算および処理されます。 3 つの 1024 長ベクトルが引き続き取得され、次の単語の継続結果が最後のベクトルに隠されます。主要な計算はこれらのアテンション エンコーディング層で発生します。この層は 2 つの構造に分割でき、最初にマルチヘッド アテンションを計算し、次に全結合層を計算します。アテンション層のタスクは発話間の意味を抽出することですが、フルリンク層はこれらの意味に応答して、保存されている知識を出力する必要があります。

まず例として how を使用します。attention レイヤーには 3 つのトレーニング済みコア パラメーター KQV があり、単語間の相関関係を計算するために使用されます。それらを各ベクトルで乗算した後、how と are の間の相関関係を取得できます。このようにして、「How」と「You」、「How」と「How」の相関関係を計算すると、3 つのスコアが得られます。スコアが高いほど、それらの相関関係は重要になります。次に、3 つのスコアと 3 つの有効な情報を乗算およ​​び加算して、how を新しい 64 グリッド ベクトルに変換します。次に、同じ操作を are に対して実行すると、3 つの新しいベクトルが得られます。

この計算ラウンドに参加する KQV は固定されており、モデルには 16 の異なる KQV グループがあります。それぞれがこのような計算ラウンドを実行し、16 の異なるグループの出力を取得します。これはマルチヘッド アテンションと呼ばれます。これは、この文については 16 の異なる単語理解があることを意味します。これらを組み合わせると、入力と同じ長さの 1024 個のグリッドが得られ、それらに重み行列 W を乗算して、完全なリンク層の計算に入力します。

全結合層には 4096 個のよく知られたニューロンがあり、依然として分類作業を行っています。ここでの計算は、アテンション レイヤーによって変換された How ベクトルをここの各ニューロンに接続することです。1024 グリッドの各数値に、最初のニューロンへの接続の重みが乗算されます。これらを加算すると、このニューロンは類似性スコアを出力します。同時に、各ニューロンは同様の操作を実行します。少数のニューロンの出力のみがゼロより大きく、これはニューロンがこれに敏感であることを意味します。1024 個のグリッド番号に対応するベクトルを接続すると、新しいベクトルが得られます。その後、同様の計算を行うと、初期長が同じ 1024 個の長さの 3 つのグリッド文字列が得られます。これがアテンション エンコーディング層で発生することです。後続の各層も同じプロセスに従い、前の層に基づいてさらに計算を実行します。各層では少ししか理解できなかったとしても、24 層を計算した後でもまだ多くの理解が得られ、最終的に 3 つのベクトルが得られます。 、それぞれの長さは 1024 です。モデルによって出力される次の単語は、この最後のベクトル (ユーザーが変換したベクトル) に基づいています。これを 1024 から 0 ~ 50256 の範囲のシリアル番号に復元すると、このシリアル番号ベクトルは次のようになります。語彙の中で最も近い値。この時点で、モデルは「お元気ですか」の次の単語を計算しており、これが最も実行している可能性が高いと言えます。

モデルに書き込みを続けてもらいたいので、「お元気ですか」の後にこれを続け、それを 4 つのベクトルに変換してモデルに入力し、今のプロセスを繰り返して、次の単語を取得します。一つ一つの段落がどんどん長くなっていき、最終的には目に見える段落になります、これがテキスト ソリティアの秘密です。ChatGPT は、この継続モデルを対話インターフェイスに変更するだけです。このように、質問がすべて継続の出発点になります。一緒にテキスト ソリティアを完成させます。

2.3 「大きな」言語モデル

先ほどの各層の計算処理は長いですが、実際には大丈夫なのですが、GPTの本当に怖いのはパラメータの多さです。GPT1 の基本サイズは 768 で、各層には 700 万以上のパラメータがあり、第 12 層には 1 億 1,500 万のパラメータがあり、リリースされた 2018 年にはすでに非常に大規模でした。先ほど開いた GPT メディアの基本サイズは 10241、合計 24 レイヤーで、各レイヤーには 1,200 万個のパラメーターがあり、掛け算すると 3 億 5,000 万個のパラメーターになります。ChatGPTで使用されているGPT3バージョンは、パラメータ数が1,750億、レイヤー数が96まで増えています。GPT4 はそのサイズを発表していませんが、一部のメディアは GPT3 のサイズ (1 兆パラメータ) の 6 倍であると推測しています。これは、たとえ下位レベルの GPT4 をインストールできるように 3090 グラフィックス カードのビデオ メモリを数百倍に増やしたとしても、簡単な質問に答えるには依然として 40 分の計算が必要になる可能性があることを意味します。

これらすべてを分解してみると、そこには驚くべき秘密はなく、あるのは文明の驚異のような巨大さ、何も言うことのない巨大さだけであることがわかります。これが GPT シリーズの真実です。 "言語モデル。しかし、なぜそのようなモデルがインテリジェンスを生み出すことができるのかについてはまだ答えられず、なぜパラメータの数がこれほど大きくなければならないのかという新たな疑問が生じています。

まず、現在知られている情報を要約しましょう。まず、ニューラル ネットワークはデータ分類という 1 つのことしか実行できません。第 2 に、GPT モデルのアテンション層は談話の意味を抽出し、その後、全体のニューロンを通じてその意味を抽出する責任があります。リンク層 保存された知識を出力する 第三に、GPT が指定するすべての単語は、会話内のすべての単語をモデルを通して実行し、出力確率が最も高い単語を選択します。では、GPT が持つ知識はどこから来たのでしょうか? OpenAI の論文で ChatGPT の事前トレーニング データ セットを見ることができます. これらは Web サイト、書籍、オープン ソース コード、Wikipedia からの約 700 GB のプレーン テキストです. 合計 4,991 のトークンがあり、これは 860,000 西遊記に相当します。そのトレーニング プロセスは、モデル内のすべてのパラメーターを自動的に調整することで、これらの膨大なテキストの継続を完了することです。

このプロセスでは、知識が各ニューロンのパラメーターに保存され、その後、その数千億のパラメーターと保存された知識は更新されなくなります。つまり、私たちが使用する ChatGPT は、実際には完全に静的です, 精緻な死体のようにです. 私たちが今言ったことを覚えているように見える理由は, 新しい単語が出力されるたびに, 以前の単語をすべて削除する必要があるからです. 出てきてもう一度数えてください, そのため、最初に書かれた内容であっても、その後何百語も書き続けた結果に影響を与える可能性があります。しかし、これにより、ChatGPT 対話の各ラウンドの総語彙数が制限されることになるため、GPT は対話のレベルを制限する必要があります。記憶力が7秒しかない天才金魚みたいな。

ここで、序文で述べた質問に戻ります。なぜ ChatGPT は、学習データには存在しない 6 桁の加算など、明らかに統計的に予測できない、インターネット上に存在しない、彼が研究していない質問に答えることができるのでしょうか。最も高い確率の数値は何ですか?また、統計以外のこれらの新しい能力はどのようにして現れるのでしょうか?

今年の 5 月に、私は OpenAI の新しい研究「言語モデルは言語モデルでニューロンを説明できる」[6] と呼ばれる新しい研究に触発されました。簡単に言えば、GPT4 は GPT2 を説明するために使用されます。GPT2 にテキストが入力されると、モデル内のいくつかのニューロンがアクティブになります。オープン AI を使用すると、GPT4 がこのプロセスを観察し、このニューロンの機能を推測し、さらに多くのテキストとニューロンを観察し、さらに多くのニューロンを推測できるようになります。 GPT2では各ニューロンの機能を推測できますが、GPT4がそれを正確に推測できるかどうかはわかりません。検証方法は、これらの推測に基づいて GPT4 にシミュレーションモデルを構築させ、テキストを見た GPT2 の反応を模倣し、実際の G​​PT2 の結果と比較することで、結果の一致率が高いほど、推測の精度が高くなります。このニューロンの働き。OpenAI は、各神経内科医の分析結果をこの Web サイトに記録します。

例えば「30, 28」と入力すると、30層目の28番目のニューロンの様子がわかります。GPT4 は、このニューロンが特定の時間に焦点を当てていると考えています。以下にさまざまなテスト例を示します. 緑色はニューロンが単語に反応することを意味し、緑色が濃いほど反応が大きいことを示します。たとえスペルが完全に異なっていても、これらのモデルの中間層のニューロンは、単語と文脈に基づいてその意味をすでに理解していることがわかります。

しかし、OpenAI は、下位層のニューロンのみが理解しやすいことも発見しました。このヒストグラムの横軸はニューロンの解釈の精度、縦軸はニューロンの数です。最初の数層のニューロンでは、ほぼ半数が 0.4 を超える精度を達成できることがわかります。しかし、層の数が増えるほど、スコアの低いニューロンが多くなり、ほとんどのニューロンはまだ霧の中にあります。

この会話のように、言語の理解は本質的に説明が難しいからです。中国語を母語とする私たちにとって、この一節の意味はすぐに理解できますが、ニューラル ネットワークにとっては、「意味」に反応する少数のニューロンに依存するだけでは明らかに意味がありません。

A:「どういう意味ですか?」 B:「何も意味ないです。何も意味ありません。」 A:「あなたは本当に面白いですね。」 B:「実際のところ、それ以外の意味はありません。」 A:「では、ごめんなさい」 B:「ごめんなさい。」

GPT はこれらの意味を理解しているようですが、どうやって理解しているのでしょうか?

2.4 出現 - 出現

「すべてを単純な基本法則に還元する能力は、それらの法則から宇宙全体を再構築する能力を意味するものではありません。」 - フィリップ・アンダーソン。

1972 年、理論物理学者フィリップ アンダーソンは、「More is Different」[7] というタイトルの論文を Science 誌に発表し、複雑な科学の基礎を築きました。アンダーソンは次のように信じていました。「多数の素粒子の複雑な集合体の挙動は、これを理解することはできません」少数の粒子の特性からの単純な外挿ではなく、複雑さの各レベルでまったく新しい特性が出現し、これらの新しい動作を理解するために必要な研究が基礎にあると信じています。 。」

言語モデルの構造を振り返ると、情報は注意符号化層を上に向かって流れ続け、ニューロンの層数が増えるほど、複雑で抽象的な概念や言い表せない比喩に注意を払う能力が高まります。「干し草の山でニューロンを見つける」 [8] と呼ばれるこの論文も同様の状況を発見し、言語がフランス語かどうかを判断するために特別に使用されるニューロンを発見しました。このニューロンが小さなモデルでブロックされた場合、フランス語を理解する能力は直ちに低下しますが、大きなモデルでブロックされた場合は、ほとんど影響がない可能性があります。これは、モデルが大きくなるにつれて、単一機能のニューロンがさまざまな状況に適応する複数のニューロンに分割される可能性が高く、単一の問題を判断することがそれほど単純ではなくなり、より困難になることを意味します。

OpenAI がモデルをこれほど大きくする必要があるのは理解できますが、モデルが十分に大きくなって初めて十分に抽象化でき、あるレベルに達すると、モデルはこれまでに登場したことのない新しい機能を持ち始めることもあります。 。

「大規模言語モデルの緊急機能」[9] と題されたこの論文では、研究者は、さまざまなサイズのこれらの言語モデルに対して 8 つの新しい機能テストを完了しました。大きくなるまではあまり上手ではなかったのですが、ある臨界点に達すると、一瞬にしてひらめいたかのように急に上手になり、上向きの直線になり始めたのが分かります。

私たちの自然や宇宙を見てみると、複雑な系の誕生は直線的に成長しないことが多いですが、複雑さが一定の閾値まで蓄積すると、突然新たな特性、これまでにない新たな状態が生み出される現象をこう呼んでいます。出現。そして、数千億のパラメータを持つこの大規模な言語モデルは、データの分類に基づいて実際にいくつかの新しいことを生み出したようです。

最近、「アウト・オブ・コントロール」という本を読みましたが、その中には、集団知能として理解できる創発と呼ばれる概念についても言及されていました。ミツバチは非常に愚かですが、グループを形成すると、個人の知性を超えた多くの決定を完了できます。もちろん、AIの神経細胞一つ一つが愚かだとは思いませんが、人間の進化と同じように、大量の機能反復と学習によって突然このような「意識」が現れるかどうかは、何らかの理由でそうなるでしょう。意識です。この世界のすべてが原子でできているのと同じように、原子間の相互作用を計算するだけでは化学は理解できませんし、生命も理解できません。したがって、AI をバイナリ分割のみを行う円や線として還元主義的な観点からのみ捉えた場合、今日の大規模な言語モデルから出現する抽象的な論理と推論能力を理解することは決してできません。新しいレベルはこの問題を再理解します。

3. 中華室

1980年、アメリカの哲学教授ジョン・サールは、「精神脳とプログラム」と呼ばれる論文の中で、有名な思考実験「チャイニーズ・ルーム」を提案した[10]。英語しか分からない人間を密室に閉じ込め、メモを渡すことでしか外部とコミュニケーションを取ることができない。部屋には英語で書かれた中国語会話マニュアルがあり、すべての中国語文に対応する返答が表示されます。このように、その部屋にいる人は、マニュアルを介して外部とスムーズに中国語で会話することができ、一見中国語を知っているように見えますが、実は外部からの質問も返ってきた答えも理解していません。

彼は、プログラムがどれほど賢くて人間に似ていたとしても、コンピューターに思考、理解、意識を持たせることは決してできないことを、チャイニーズ ルームを通じて証明しようとしました。本当か?インターネット哲学百科事典と呼ばれるこの Web サイトでは、チャイニーズ ルームをめぐるさまざまな議論を見ることができますが、どれも互いに説得できません。

印刷されたマニュアルだけに頼っていては中国人の部屋を実現することは不可能であるため、これらの議論はイデオロギーレベルにとどまります。中国語会話には無限の可能性があり、同じ文章であっても文脈が違えば反応も異なります。つまり、マニュアルには無限の状況を記録する必要があり、そうでないと常に答えられないことがあります。しかし、奇妙なことに、ChatGPT は実際に実現します。ChatGPT は、わずか 330 GB のプログラムとして、限られた容量でほぼ無制限の中国語会話を実現します。これは、中国語の可逆圧縮を完了したことを意味します。

このようなリピーターがあり、容量が 100 MB しかなく、10 曲しか再生できないと想像してください。新しい曲を聴くには、古い曲を削除する必要があります。しかし今、私たちは魔法のリピーターを発見しました。これで、最初のラインを歌うだけで済み、このリピーターは波形を書き続けることで任意の曲を再生できます。このリピーターをどう理解すればよいでしょうか?彼は歌を習ったとしか考えられません。

4. 圧縮 - 圧縮は知恵です

GPT の学習プロセスを振り返ると、GPT が行うことは、1,750 億のパラメーターを通じて学習した 4,990 億のトークンの圧縮を達成することです。この時点で、私は徐々に、知性を生み出すのは圧縮であることに気づきました。

OpenAI 大規模言語モデル チームの中心メンバーである Jack Ray 氏は、ビデオ講義の中で、圧縮が常に私たちの目標であると述べました。

次に、圧縮とインテリジェンスについての私の理解ですが、「圧縮はインテリジェンスです」という文を送りたいとします。

GPT は圧縮ツールと考えることができます。この文を圧縮するために使用します。受信した後、GPT を使用して解凍できます。まず、この文にどれだけの情報が含まれているかを知る必要があります。GBK などのエンコーディングでは、漢字を表現するには 2 バイト、つまり 16 0/1 が必要で、これは 2 の 16 乗、つまり 65536 通りを表すことができます。この文には合計 5 文字があり、合計 80 個の 0 と 1、つまり 80 ビットが必要です。しかし実際には、この文の情報量は 80 ビット未満になる可能性があります。その真の情報内容は、実際に数式を使用して計算できます。

これは、1948 年にシャノンによって与えられた情報エントロピーの定義です。情報の本質は確率密度であることがわかります。ここでの P は単純に各単語の出現確率と理解でき、出現確率が低いほど文全体の情報量が多くなります。この文のすべての単語がルールなしでランダムに出現する場合、P の確率は 1/65536 で、計算される情報量は元の 80 ビットになります。一般的な従来の圧縮方法は、繰り返される単語を見つけることですが、ほとんど繰り返しのない文を圧縮するのは困難です。さらに重要なのは、通常の言語は規則的であり、「押す」とそれに続く「縮小」の確率は 1/65536 よりもはるかに大きく、情報をさらに圧縮する余地が与えられます。言語モデルが行うことは、圧縮プロセス中に言語の規則を見つけて、各単語が出現する確率を高めることです。たとえば、「圧縮」だけを送信して言語モデルに書き込みを開始させると、次の単語が予測確率テーブルに表示されます。たとえば、「ie」と「wisdom」の位置を選択するだけで済みます( 402、350)。この2つの数字は情報の圧縮を実現しており、受信機はこの情報を基に同じ言語モデルの確率から処理し、数字に対応する選択肢を選択して伸長を完了します。最大 5000 の 2 つの数字。各数字を表すには 0/1 の 13 桁だけが必要です。最初の 2 ワードを含め、送信する必要があるのは 0/1 の合計 52 桁だけです。情報は元の 52 桁に圧縮されます。 /80、つまり約 65 % です。

逆に、言語モデルの予測効果が低い場合、後続のテキストの語彙リストは依然として非常に長くなり、良好な圧縮効果は得られません。したがって、圧縮効果が優れているほど、予測効果も優れていることがわかります。これは、圧縮された情報に対するモデルの理解も反映しており、この理解自体が一種の知性です。九九を十分小さく圧縮するには数学を理解する必要があり、惑星座標が十分小さく圧縮されれば万有引力を理解できるかもしれません。現在、大規模言語モデルは可逆圧縮の最適なソリューションとなっており、14 倍の圧縮率を達成しています。この視点を圧縮する最大の意義は、謎の出現と比較して、機械の知能を定量化できる明確な解決策が得られることです。中国人の部屋のような思考実験に直面したときでも、その部屋がどれほど知性を持っているかを研究する方法があります。

しかし、圧縮によって生み出される知能と人間の心は本当に同じものなのだろうか?

5.最後に書く

現段階で GPT と人間の音声の最大の違いは何かと問われれば、答えは嘘をつかないということだと思います。言語モデルにとって、話すことと考えることは同じことであり、思考過程や精神活動を一言一句表現しているだけです。GPT は決して「分かりません」とは答えません。知らないことを知らないからです。これは AI の幻想です。深刻なナンセンスのように見えます。彼はただ会話を続けたいだけです。それが正しいかどうかは関係ありません。はそれほど重要ではありません。この問題を最適化する方法も非常に簡単です。「ステップごとに考えてみましょう」という質問をするときに、一文を追加するだけです。ステップごとに分析して、GPT に人間のようにさらにいくつかのステップを考えさせてください。彼、それは思考プロセスを説明することを意味します。段階的に、この能力は思考の連鎖とも呼ばれます。心理学者のダニエル・カーネマンは人間の思考を 2 つのタイプに分類し、システム 1 は直観的で素早く、鈍感であるのに対し、システム 2 は考えるために知識、論理、頭脳を積極的に使用する必要があります。前者は、89、72、99、81 を口頭で言えるのと同じように、思考が速いのに対し、後者は思考が遅いです。たとえば、72 掛ける 81 を答えたい場合は、プロセスをリスト化し、段階的に計算する必要があります。思考連鎖の存在は、大きな言語モデルが最終的に推論機能を備えていることを意味します。そしてこれを行うために、私たちの脳は6億年にわたって進化してきました。6億年前のクラゲでは、最古の神経ネットワークの仕組みを見ることができます。クラゲは、外側の触角領域と中央の口領域にニューロンを持っています。触手が食べ物を感知すると、ここの神経細胞が活性化して中央の神経細胞に信号を伝え、食べ物は触手に巻き上げられて口に運ばれます。長年にわたり、私たちの脳はニューラル ネットワークに基づいて層ごとに成長してきました。

最初に進化したのはカエルの脳に似た爬虫類の脳で、心拍数、血圧、体温など、私たちの死を防ぐものを制御します。そして、私たちの動物の本能を司る古生物学的な脳があり、飢え、恐怖、怒りなどの感情、そして生殖欲求はすべて大脳辺縁系の制御から来ています。最も外側にある約2ミリの薄い層は、言語、文字、視覚、聴覚、運動など、私たち人間が誇る部分であり、ここ数百万年で進化したばかりの新しい構造である新皮質です。ここでは思考が行われますが、新皮質についてはまだほとんどわかっていません。現在わかっていることは、ここには約 200 億個のニューロンがあり、新皮質の 1 平方センチメートルごとに約 1,000 万個のニューロンとニューロン間の接続が 500 億個存在するということです。人間の脳の外側から取り出されるのは、わずか 3 平方センチメートルの新皮質の小片だけであり、これはすでに ChatGPT の恐ろしく多数のパラメータと類似しています。私たちの脳が非常に多くのニューロンを必要とする理由は、GPT が必要とするのは次の単語だけであり、私たちのニューロンは次の瞬間に世界で何が起こるかを常に予測する必要があるからです。

ここ数十年の神経科学研究により、ニューロンを活性化するシナプス信号に加えて、予測に関与する多数の樹状スパイク信号も存在することが発見されました。予測状態にあるニューロンが十分に強い顕著な信号を受信すると、非予測状態にあるニューロンよりも早く活性化され、それによって他のニューロンが抑制される可能性があります。これは、私たちの大脳新皮質の 200 億個のニューロンに世界の詳細なモデルが保存されており、私たちの脳が予測を止めることがないことを意味します。したがって、私たちが何かを見るとき、実際には私たちの脳があらかじめ構築したモデルを見ているわけで、それが私たちの予測と一致していれば、何も起こりません。予測が外れると、他の多数のニューロンがアクティブになり、エラーに気づき、適時にモデルを更新できるようになります。したがって、すべての間違いには価値があります。無数の予測エラーと更新された認識を通じて、私たちは世界を真に理解します。

GPT にはまだ知性がないかもしれませんが、彼にはすでに知性があります。それは「大きな」言語モデル、何百万もの円と線がつながった分類器、次の単語を予測してテキストソリティアを実現するチャットマスター、意味を抽出し続ける天才金魚、そして何千人もの人々のためのツールです. 数十億語を可逆圧縮したリピーターは、正しいか間違っているかに関係なく、常に人々に肯定的に応答するアシスタントです。それは急速に衰退しつつあるテクノロジーのホットスポットである可能性もあれば、人類最後の重要な発明である可能性もあります。囲碁、絵画、音楽から数学、言語、コーディングに至るまで、AI が人間の知性と創造性を象徴するものを徐々に超え始めると、人類に最大の影響を与えるのは、仕事の代替への恐怖だけではなく、より深い自己不信です。人間の心は私たちが思っているよりずっと浅いのでしょうか? 私はそうは思いません。

機械は驚くほど正確な中継器になる可能性がありますが、人間は間違いを起こしやすい中継器になる可能性があります。欠陥や間違いが私たちを定義します。あらゆる矛盾、あらゆる理解の欠如、あらゆる沈黙、立ち止まり、凝視することは、何も考えずに答えることよりも価値があります。

参考文献

[1] Vaswani、Ashish、他。「必要なのは注意力だけです。」神経情報処理システムの進歩30 (2017)。

[2] ラドフォード、アレック、他。「言語モデルは教師なしのマルチタスク学習者です。」OpenAI ブログ1.8 (2019): 9.

[3] ブラウン、トム、他。「言語モデルは数回で学習できるものです。」神経情報処理システムの進歩33 (2020): 1877-1901。

[4] ローゼンブラット、F.「パーセプトロン: 脳内の情報の保存と組織化のための確率的モデル。」心理学的レビュー、65 (1958): 386–408。

[5] ラドフォード、アレック、他。「生成的な事前トレーニングによる言語理解の向上」(2018年)。

[6] ビルズ、スティーブン、他。「言語モデルは言語モデル内のニューロンを説明できます。」URL https://openaipublic塊。芯。ウィンドウズ。net/neuron-explainer/paper/index. html.(アクセス日: 14.05. 2023) (2023)。

[7] アンダーソン、フィリップ W. 「More Is Different: 破れた対称性と科学の階層構造の性質」サイエンス177.4047 (1972): 393-396。

[8] ガーニー、ウェスら。「干し草の山からニューロンを見つける: スパースプロービングを使用したケーススタディ」arXiv プレプリント arXiv:2305.01610 (2023)。

[9] ウェイ、ジェイソン、他。「大規模言語モデルの新たな能力」arXiv プレプリント arXiv:2206.07682 (2022)。

[10] サール、ジョン R.「心、脳、そしてプログラム」行動科学と脳科学3.3 (1980): 417-424。

著者: JD Retail Li Xinjian
出典: JD Cloud Developer Community 転載の際は出典を明記してください

オープンソース フレームワーク NanUI の作者がスチールの販売に切り替えたため、プロジェクトは中断されました。Apple App Store の無料リストのナンバー 1 はポルノ ソフトウェア TypeScript です。人気が出てきたばかりなのに、なぜ大手はそれを放棄し始めるのでしょうか。 ? TIOBE 10月リスト:Javaが最大の下落、C#はJavaに迫る Rust 1.73.0リリース AIガールフレンドにイギリス女王暗殺を勧められた男性に懲役9年の実刑判決 Qt 6.6正式リリース ロイター:RISC-Vテクノロジーが中米テクノロジー戦争の鍵となる 新たな戦場 RISC-V: 単一の企業や国に支配されない レノボ、Android PC の発売を計画
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4090830/blog/10116823