GPT-4 と ChatGPT の競争、誰が勝ちますか?

元のテキストを表示するには、リンクをクリックしてください: GPT-4 と ChatGPT の競争、誰が勝ちますか?
出典: [Lingdian Youshu Technology]、著者 Xu Zhengjun 氏と Yuan Yue 氏

人工知能の歴史におけるマイルストーンイベントの 1 つとして、ChatGPT は 2022 年 11 月 30 日にリリースされて以来、熱心に議論されてきました。ChatGPT の流行はまだ衰えず、2023 年 3 月 14 日、OpenAI は新世代の AI 言語モデル GPT-4 のリリースを続け、GPT-4 が「OpenAI の最も先進的なシステム」であり、「より安全な、より有用な回答」。

同社が発売した人工知能技術による自然言語処理ツール(AI言語モデル)として、従来のChatGPTと比べてGPT-4はどの程度進化しているのでしょうか?これらの進歩の背後にある基礎的なロジックは何ですか?

ChatGPT は AI チャットロボット GPT-3.5 の大型モデルを微調整したアプリケーション製品であり、GPT-4 は GPT-3.5 の次世代大型モデルであるとして、本稿では 2 つのレベルで比較します。基本モデルのレベルで、(基礎となるロジックとして) GPT-4 と GPT-3.5 を比較し、次に、アプリケーション機能のレベルで、(高度な点として) GPT-4 と ChatGPT を比較します。

1. GPT-4 および GPT3.5

GPT-4 は、OpenAI が 2018 年 6 月に GPT-1 をリリースして以来、GPT-2、GPT-3、GPT-3.5 に続いてリリースされた AI 自然言語大規模モデルの最新世代です (以下の表 1 を参照)。

歴史の観点から見ても、原理は基本的に同じです。第一に、それらはすべて「自己回帰生成」と呼ばれる関連する統計手法を使用しており、第二に、最初に教師なし学習を使用して基本的な一般モデルを事前トレーニングし、次に教師あり学習を通じてさまざまなモデルを微調整して適応させます。モデルが人間のようにコミュニケーションできるようにする「人間のフィードバックからの強化学習」という強化学習手法、3 つ目は「Transformer」と呼ばれるアルゴリズム フレームワークに基づいています。つまり、それらはすべて「GPT」(生成事前トレーニング コンバーター、または生成事前トレーニング大規模モデル)です。

ただし、違いは、進化の変数が主にモデルの規模 (つまり、パラメーターの数)、事前トレーニングされたデータの量、入力情報をサポートする能力 (マルチモーダルかどうか) に関連していることです。 、長い情報であるかどうか)、モデルの機能(複数の機能があるかどうか)、さらにモデルのパフォーマンス、アプリケーションのセキュリティ、および信頼性の側面も含めます。

具体的な比較は以下の通りです。

1. モデルスケール。GPT-3.5のパラメータ数が1,750億個であるのに対し、GPT-4のパラメータは5,000億個(1兆個とも報告)に達しており、GPT-4の規模はGPT-3.5よりも大きい。一般に、規模が大きいほどパフォーマンスが向上し、より複雑で正確な言語を生成できることを意味します。

2. トレーニングデータ。GPT-3.5では、インターネット上のWikipedia、ニュースレポート、Webサイトの記事などの約45TBにも及ぶ大量のテキストデータを利用します。GPT-4 では、Web ページ、書籍、論文、プログラム コードなどのテキスト データをより多く使用し、また、大量のビジュアル データも使用します。具体的な値を調べることは不可能ですが、GPT-4 の学習データが GPT-3.5 よりも豊富であることは間違いありません。これにより、GPT-4 はより幅広い知識とより具体的な回答を得ることができます。

表 1 OpenAI GPT モデルのパラメーターと事前トレーニング データ量の比較

3. モダリティと情報。GPT-3.5はテキストベースのシングルモーダルモデルであり、画像、テキスト、音声を問わず、ユーザーは1種類のテキスト情報のみを入力できます。一方、GPT-4 は、テキストと画像のプロンプト (テキストと写真、図、またはスクリーンショットを含むドキュメントを含む) を受け入れることができるマルチモーダル モデルです。これにより、GPT-4 は両方のタイプの情報を組み合わせて、より正確な説明を生成できます。入力情報の長さに関しては、GPT-3.5 の制限は 3,000 文字でしたが、GPT-4 ではテキスト入力の制限が 25,000 文字に増加しました。テキスト入力の長さ制限の増加により、GPT-4 の有用性も大幅に拡張されます。たとえば、50 ページ近い書籍を GPT-4 に入力して要約を生成したり、10,000 ワードのプログラム ドキュメントを GPT-4 に直接入力してバグを直接修正したりすることができます。

4. モデル機能。GPT-3.5 は主にテキスト応答とスクリプト作成に使用されます。GPT-4 には、テキストによる回答やスクリプトの作成に加えて、画像の回答、データの推論、グラフの分析、概要の要約、ロールプレイングなどの機能もあります。

5. モデルのパフォーマンス。GPT-3.5 は優れたパフォーマンスを示していますが、GPT-4 はより複雑な問題を処理する際に優れたパフォーマンスを発揮します。たとえば、さまざまな専門的および学術的なベンチマークに関して、GPT-4 は人間と同様のパフォーマンスを示しています。模擬司法試験に関しては、GPT-4 は受験者の上位 10% に入る可能性がありますが、GPT-3.5 は下位 10% に入っています。 ; USABO 準決勝試験 2020 (アメリカ生物学オリンピック)、GRE スピーキング、その他多くの試験項目において、GPT-4 もほぼ満点に近い得点を獲得しており、ほぼ人間のレベルに近い値となっています。以下の図 1 を参照してください。

図 1 GPT-4 テスト結果 (GPT-3.5 のパフォーマンスで並べ替え)

(データ出典:https://openai.com/research/gpt-4)

6. 安全性と信頼性。GPT-4 は、有害なコンテンツや本物ではないコンテンツの生成に対する戦略を改善し、誤解を招く情報や悪意のある使用のリスクを軽減し、そのセキュリティと信頼性を向上させます。特に、GPT-4 は、事実性、ブートストラッピング、範囲外 (コンプライアンス違反) の質問の拒否に関して、これまでで最高の結果を達成しています (完璧ではありませんが)。GPT-3.5 と比較して、GPT-4 は、生成されたコンテンツのファクト テストで GPT-3.5 よりも 40% 高いスコアを獲得し、ポリシーに沿ってデリケートな要求 (医療アドバイスや自傷行為など) に 29% 多く応答しました 82。許可されていないコンテンツのリクエストに応答する傾向が % 低下します。

全体として、GPT-4 は GPT-3.5 よりも信頼性が高く、創造性が高く、よりきめの細かい命令を処理できます。表 2 を参照してください。

表 2 GPT-3.5 から GPT-4 への新しい変更点

2. GPT-4 と ChatGPT

ChatGPT は GPT-3.5 に基づいた AI チャットボットです。しかし、対話に関しては、GPT-4 はより優れた一貫性と文脈の理解を示しています。流暢で正確かつ論理的なテキストを生成できるだけでなく、さまざまなタイプの質問を理解して答えることができ、さらにはユーザーと対話することもできます。テクニカルライティングの課題。その中でも特に注目されるアプリケーション機能は次のとおりです。

1. 画像認識および分析機能を追加しました。ChatGPT と比較して、GPT-4 はテキスト入力のサポートに加えて、画像認識および分析機能が追加されています。つまり、画像の認識 (画像の説明の出力)、グラフの分析 (EXCEL のグラフ分析と同様)、珍しいものを見つけることができます。写真で見る(写真から異常現象を特定する)、資料を読んで概要をまとめる(PDFファイルの内容を要約するなど)。Web サイトの下書きを紙に描き、写真を撮って GPT-4 にアップロードするだけで、モデルが Web サイトのコードを生成できます。

2. より高度な推論能力。ある程度の単純かつ直接的な推論しか実行できない ChatGPT と比較して、GPT-4 は複雑かつ抽象的な思考を実行し、より複雑な問題を解決できます。前述したように、GPT-4 は多くの専門的および学術的分野で人間のパフォーマンスを実証しており、たとえば、米国の司法試験では上位 10% の基準に達し、法科大学院入学試験でも 88% に達しています。 90%のスコアを達成しました。特にChatGPTが苦手とする数学的な問題解決能力であるGPT-4は大幅に向上しており、アメリカの大学入学試験のSAT数学テストでは800点中700点を獲得しました。

3. より高いレベルの創造性とコラボレーション。特定の範囲内で限定的な作成とコラボレーションのみを実行できる ChatGPT とは異なり、GPT-4 は、曲の作曲、スクリプトの作成、ユーザーのスタイルや好みの学習など、ユーザーと創造的かつ技術的な執筆タスクを実行できます。さまざまなタイプやスタイルのテキストを編集して反復し、ユーザーのフィードバックや提案に基づいて出力を改善できます。

4. より幅広い応用の可能性。GPT-4 は、人間レベルに近い言語理解と生成機能などの利点を備えており、さまざまな分野や場面で重要な役割を果たします。たとえば、GPT-4 は、インテリジェント アシスタント、教育ツール、エンターテイメント パートナー、研究アシスタントとして使用でき、Office ソフトウェア、検索エンジン、仮想家庭教師アプリケーションなどを可能にします。公開情報の報道によると、マイクロソフトは GPT-4 を Office スイートに接続して新しい AI 機能 Copilot を立ち上げ、さらに GPT-4 を Bing に接続してカスタマイズされた検索サービスを提供しており、モルガン・スタンレーは GPT-4 を資産管理に適用しています。管理部門の市場情報の分類と検索; Doulingo は言語学習を強化するためのロールプレイングに GPT-4 を使用します; BeMyEyes は視覚障害者の理解を助けるために GPT-4 を使用して視覚的な画像をテキストに変換します; Khan Academy も GPT を使用しています-4 仮想メンター Khanmigo として...その他。

GPT-4は今後ますます多くの産業と結びつき、社会の生産性や創造性の向上を促進し、人類に利便性と価値をもたらすことが予想されます。同時に、GPT-4 のアプリケーションの拡大と深化に伴い、GPT-4 は人間のフィードバックからより多くの学習をより速く学習し、そのモデルの反復アップグレードの速度も加速され、より多くの機能とより強力な機能が追加されます。そのパフォーマンスを世界に発信します。

3. よくある問題

前述したように、GPT-4 と ChatGPT は両方とも生成 AI 自然言語モデルです。いわゆる生成とは、簡単に言うと、入力された単語に基づいて次に最も可能性の高い関連単語を予測し、次に最も可能性の高い単語をモデルに入力し、次に最も可能性の高い関連単語を予測することです...と同様です。 「ワードソリティア」なので続けます。多数の既存の人間コーパスを「トレーニング」することにより、モデルのパラメータが常に調整されるため、モデルの「ワード ソリティア」レベルは常に人間コーパスの実際の状況に近づきます。つまり、モデルにルールを学習させます。したがって、GPT-4 と ChatGPT の両方には、生成式自体の欠点によって引き起こされる一連の問題が発生します。

例:実際のコーパス自体に誤った情報が多く含まれている場合、または有害な情報(人種、性別、宗教、政治などの偏見や悪意に満ちたものなど)が多く含まれている場合、その情報はコンテンツのリスク: 実際には異なるコンテンツがたまたま同じ法則に準拠している場合、モデルはそのコンテンツを区別できない可能性があります。最も直接的な結果は、現実には存在しないコンテンツが、モデルがトレーニング資料から学習した法則と一致する場合、モデルは存在しないコンテンツの「合法的な混合捏造」を実行することが可能であるということです。つまり、偽の情報を生成することです。モデルには解釈可能性がなく、モデルが何を記憶し学習したかを直接確認することはできないため、複数の質問を使用してモデルが学習した内容を評価および推測することしかできず、これがリスクにつながります。プライバシー漏洩(3 月 23 日の BBC の報道によると、一部のユーザーはソーシャル メディア上で ChatGPT を使用して他人の過去の検索記録のタイトルを見た)、「人間のフィードバックからの集中学習」に基づいて、必然的に学ぶべきではない法則を学ぶことになるイデオロギーの侵入やネットワークのセキュリティに影響を与える悪意のある誘導から... つまり、アプリケーションがより幅広く、より深くなったことで、GPT-4 と ChatGPT は両方とも、より多くのセキュリティとリスクの課題に直面することになります。

OpenAIの創設者兼最高経営責任者(CEO)のサム・アルトマン氏が最近のABCニュースのインタビューで語ったように、彼はAIテクノロジーとそれが労働力、選挙、偽情報の拡散にどのような影響を与える可能性があるかを「恐れている」という。同氏はまた、人工知能の広範な利用は悪影響を与える可能性があると警告し、そのためには政府と社会の規制への共同参加が必要であり、人工知能の悪影響を抑制するにはフィードバックとルールが重要であると訴えた。

おすすめ

転載: blog.csdn.net/Dataway_Dataway/article/details/130947782