大規模なモデルとデータベース: AI 時代の双方向の推進

AIGC 時代の到来により、GPT が率いる大規模言語モデル (LLM) は、今日の人工知能の分野で最も注目されているトピックの 1 つとなっています。これらの強力なモデルは、コンテンツクリエイティブの生成、言語翻訳、コード支援などのタスクで優れたパフォーマンスを発揮するだけでなく、データベースの開発にも革命的な影響を与えます。

1 大きな言語モデル: 人間とコンピューターの対話の新時代

人類文明の発展を通じて、言語は常に文明の継続的な進化と進歩の重要な部分を占めてきました。最も初期の口頭伝達から書き言葉の出現に至るまで、言語のコミュニケーションと表現方法は継続的に改良され、知識とアイデアが時間と空間を超えて受け継がれることを可能にしました。

科学と技術の継続的な進歩により、人類の偉大な発明の 1 つであるコンピューターが誕生し、それに伴ってまったく新しい言語であるマシン語が誕生しました。機械語は、コンピューターが理解して実行できる一連の命令です。機械語はコンピュータ内で非常に効率的に実行されますが、人間にとって機械語を直接書いたり読んだりするのは退屈で複雑な作業です。コンピューターとの対話を簡素化するために、人間は機械語命令をニーモニックとして表すアセンブリ言語を発明しましたが、それでも記述して理解するには高度な技術スキルが必要です。

コンピューター技術のさらなる発展に伴い、人間は自然言語に近く、プログラミングをシンプルで人間味のあるものにする高レベルのプログラミング言語を発明しました。ただし、高級プログラミング言語はコンパイラとインタプリタによって制限され、複雑なステートメントを表現および理解する能力が制限されます。人々は、機械との対話を容易にし、理想的には機械が自然言語を真に理解できるようにすることに熱心です。

この需要を受けて人工知能が登場し、その誕生から 60 年以上にわたり、人々は自然言語処理 (NLP) の研究に熱心に取り組み、機械に自然言語をより正確に理解させ、対応するコマンドを実行させ、よりインテリジェントなインタラクションを実現することに取り組んできました。人間と一緒に。

NLP: 人間とコンピューターの相互作用の間のリンク

(出典: easyai.tech) 

2022 年 11 月 30 日に、OpenAI は GPT テクノロジーに基づく大規模言語モデルである ChatGPT をリリースしました。これは衝撃的なレベルの人工知能を実証し、すぐにあらゆる階層から注目を集めました。これまで、ChatGPT ほど強力な言語モデルは存在しませんでした。そのリリースは、人間とコンピューターの対話の新時代を告げるものです。

2 主要言語モデルの強力な強化

ChatGPT の出現は、新たな AI ブームを引き起こし、ChatGPT によって引き起こされた時代の波に乗るために、ますます多くのテクノロジー企業が独自の大規模な言語モデルを開発し、それに基づいて生成された AI ツールを開発しています。これらの大きなモデルは、プログラミング、データベース、オーディオ、ビデオ、言語翻訳、会話、チャットなど、さまざまな分野をカバーする無数のモデルがあります。

大型モデルの応用分野 

(出典: aigeneration.substack.com) 

たとえば、プログラミングの観点から見ると、Github Copilot と Mintlify はどちらも大規模なモデルに基づく AI コード アシスタントであり、前者は開発者のコ​​ード コンテキストとコメントに基づいて適切なコードの提案を生成することができ、開発者がプロ​​グラミングの効率と品質を向上させ、重複や重複を削減するのに役立ちます。煩わしさから解放され、アイデアを簡単に実現できます。

AI プログラミング アシスタント Github Copilot

(出典: github.blog) 

後者は、コードのセマンティクスとコンテキストに基づいてコード コメントを生成できるため、開発者がコメントを書く負担が軽減され、コードの可読性と保守性が向上します。

コードアノテーションツール Mintlify

(出典: g2.com) 

さらに、大規模な言語モデルは他の分野にも幅広い影響を与えています。ライティングに関しては、大規模な言語モデルをテキストの生成、段落の書き換え、インテリジェントなレビューなどに使用できます。画像分野では、大規模な言語モデルで画像生成、画像修復、画像背景除去などの機能を実現できます。

大きな言語モデルはテクノロジーであるだけでなく、デジタル経済の発展の重要な推進力でもあります。デジタル経済の活発な発展に伴い、データは土地、労働力、技術、資本をある程度上回り、経済成長を促進する5番目に強力な生産要素となっています。デジタルエコノミー時代においては、日々大量のデータが生成・処理されますが、その背後にはデジタルエコノミーの「根幹技術」であり、上位層のアプリケーション間を繋ぐ重要な技術が存在します。ソフトウェアの「最高の宝石」はデータベースです。

3. 大規模な言語モデルがデータベースと出会うとき

データベースは現代の情報システムの中核コンポーネントであり、大量の構造化データと非構造化データを保存、管理、取得するために使用されます。データの爆発的な増加と、より高度なクエリと分析に対するユーザーの要求により、従来のデータベース システムは課題に直面しています。その結果、データベースはクラウド コンピューティング、ビッグ データ、ブロックチェーンなどのさまざまな新興テクノロジーと統合および革新され始め、その結果、より強力な機能を備えた一連の新しいデータベースが誕生し、現代の情報システムにより多くの選択肢とソリューションが提供されました。

では、大規模な言語モデルとデータベースの間の衝突からは、どのような火花が生じる可能性があるのでしょうか?

3.1 データベース分野における大規模モデルの応用

大規模な言語モデルはデータベース システムをさまざまな面で強化し、それによって実行パフォーマンスの向上とインテリジェンスの実現を実現します。以下は、データベース内のいくつかの大規模な言語モデルのアプリケーションの次元です。

  • NL2SQL(自然言語からSQLへ)

従来のデータベース対話では、SQL (Structured Query Language) またはその他のプログラミング言語を使用する必要がありますが、技術専門家以外が学習して理解するのは難しい場合があります。NL2SQL は、自然言語 (NL) を構造化照会言語 (SQL) に変換するテクノロジーを指します。その目標は、技術専門家以外の人々が、複雑なクエリを作成することなく、自然言語を使用してデータベースと対話できるようにすることです。

SQL Chat は、大規模なモデルに基づいた対話型の対話型 SQL クライアント ツールです。ユーザーが自然言語での会話を通じてデータベースと対話できる、ユーザーフレンドリーなインターフェイスを提供します。

従来の GUI モードと比較して、SQL Chat は使いやすさと自然さに重点を置いています。これは人々の間の会話コミュニケーションをシミュレートし、ユーザーは SQL クエリ ステートメントの特定の構文や構造に詳しくなくても、自然言語のような方法で質問することができます。このチャットのような対話方法により、技術的知識のないユーザーでも簡単に通信してデータベースにクエリを実行できます。

SQL Chat は自然言語を SQL クエリ ステートメントに変換します 

SQL Chat は、より直観的で自然な対話方法を提供することにより、SQL を使用する敷居を下げ、技術者以外の担当者に、より便利でフレンドリーなデータベース操作エクスペリエンスを提供します。この対話方法により、ユーザーとデータベース間の対話プロセスが大幅に簡素化され、データベースの使いやすさと使いやすさが向上します。

  • データベースのパフォーマンスの最適化

データベース パフォーマンスの最適化は、DBA や開発者にとって常に最も厄介な問題の 1 つです。これは、ハードウェア、システム設計、データベース構造設計、SQL クエリの最適化、インデックス戦略、キャッシュ管理など、多くの側面が関係する非常に複雑なタスクです。 。

その中でも、SQL クエリの最適化は、開発者が最も経験し、最も一般的に使用されるデータベース パフォーマンスの最適化方法です。SQL クエリ最適化の目標は、さまざまな手段を通じてクエリの応答時間を短縮し、データベースの負荷を軽減し、クエリの効率を向上させることです。

一般に、SQL クエリの実行速度は、SQL ステートメント自体の品質、データベースによって生成された実行プラン、データベース キャッシュ メカニズム、データ テーブルのサイズ、データ テーブルの複雑さなどの多くの要因に関連します。データベースの実行計画はキャッシュに関係しますが、その仕組みは独自の開発設計仕様で決まり、簡単に変更することはできません。そのため、同じデータベース環境においても、クエリの実行効率はキャッシュの品質に依存します。 SQL クエリ ステートメント、高品質 SQL ステートメントと低品質 SQL ステートメントのパフォーマンスは、まったく異なります。

ただし、多くの SQL プログラマは高品質の SQL ステートメントを作成できず、経験豊富な DBA でさえ複雑な SQL クエリの最適化に多くの時間とエネルギーを費やしています。大規模な言語モデルが登場するまで、SQL チューニングは DBA にとって悪夢ではなくなりました。

大規模な言語モデルは、特定の SQL クエリ ステートメントを分析し、クエリの書き換えと最適化の提案を提供します。クエリ ステートメントの構造とセマンティクスに基づいて、潜在的により効率的なクエリ メソッドを推測し、対応する最適化の提案を迅速に提供することで、開発者と保守者の負担を大幅に軽減します。

SQL Chat を使用してクエリ ステートメントを最適化する 

3.2 データベースは大規模モデルの最適化と開発を促進します

大規模言語モデルは本質的に、大規模なデータセットで事前トレーニングされ、膨大な数のパラメーター (通常は数十億以上) を持つニューラル ネットワーク アーキテクチャに基づく言語モデルです。人工知能の 3 つの主要要素である計算能力、アルゴリズム、データも、大規模モデルの開発を促進する重要な要素です。

大規模な言語モデルのトレーニングと推論には、大量のコンピューティング リソースが必要です。コンピューティング能力の向上により、モデルはより大きなデータ セットでより深いトレーニングを実行できるようになり、言語の理解と生成能力が向上します。アルゴリズムの継続的な改善により、モデルを最適化できます。構造とトレーニング方法により、コンピューティング リソースの利用がより効果的になり、収束プロセスが加速され、トレーニング効率が向上します。大規模なモデル機能の出現にはデータが鍵となります。大規模な言語モデルは完全にデータによって駆動され、トレーニング プロセスには大量のデータ リソース。大規模な言語モデルをトレーニングするには、トレーニング データの量、質、多様性が重要です。

データを保存および管理するための中心的なツールとして、データベースは効率的なデータの保存と取得機能を提供し、大規模な言語モデルのトレーニングをサポートします。データをデータベースに保存することで、バッチ読み取りと処理が簡単に実行できるようになり、データの可用性とトレーニング効率が向上します。

現在最も人気のある大規模言語モデルである ChatGPT を例にとると、GPT-3 モデルには 1,750 億ものパラメーターがあり、データによると、GPT-3 モデルのトレーニングに必要な総計算電力消費量は 3,640 PF 日です。 、価格は約1,200万米ドル; さらに衝撃的なのは、業界関係者が収集した情報によると、新しくリリースされたGPT-4モデルのパラメータボリュームは1兆7,600億にも上ることです。パラメーターの数が増えるほど、モデルはよりスマートになりますが、オーバーヘッドも大きくなります。計算能力の要件はパラメーターの大きさと密接に関係しており、パラメーターの大きさは、大規模なモデルのトレーニングの品質を現在測定するための重要な基準でもあります。言い換えれば、コンピューティング能力は、大規模モデルをトレーニングするための基礎的なパワーの源であり、優れたコンピューティング能力ベースにより、大規模モデルのトレーニング効果が大幅に向上します。ChatGPT の成功は、Microsoft Azure が提供する強力なクラウド コンピューティング サービスの恩恵を受けています。

大規模モデルのトレーニングに必要なコンピューティング能力は急速に増大しています

(出典: blogs.nvidia.com) 

独自の大規模モデルを所有したい企業にとって、膨大なデータ コンピューティング要件と高いコンピューティング コストが 2 つの「大きな山」として目の前にあることがわかります。たとえ複雑な大規模モデルのコードを入手したとしても、誰でも走れるわけではありません。したがって、大規模な言語モデルは、複雑なアルゴリズムの結果であるだけでなく、コンピューティング、ストレージ、データベースなどのさまざまな側面でのリソースの供給を含む、クラウド コンピューティング サービスのサポートにも依存しています。

4 つの大きなモデル + データベース: 1+1>2

大規模な言語モデルとデータベースの統合は、人間とコンピュータの対話とデータベース アプリケーションの開発を促進します。この 2 つの組み合わせは、双方にとって有利な状況です。大規模な言語モデルの言語理解と生成機能を活用することで、使用と管理が可能になります。インテリジェントなデータベースは、大規模な言語モデルのトレーニングとアプリケーションをサポートする高品質のデータ セットと効率的なデータ管理を提供します。データベースと大規模モデルの組み合わせは、将来的には両方の開発における主要なトレンドになるはずです。

Tuoshupai 大型モデル データ コンピューティング システム (πDataComputing System、略称 πDataCS) は、今年 10 月 24 日に開催される同社の年次技術フォーラムで発表され、強力な技術革新と優れた製品力を備えたAI の基礎技術基盤となることを目指しています。業界は、大型モデルのデータ コンピューティング システムが AI 技術の新たなパラダイムを開くと信じており、大きな期待を抱いています。

 


 

 

Bunが正式バージョン1.0をリリース、 JavaScriptがZigによって書かれたランタイム時の Windowsファイルエクスプローラーの魔法のバグ、1秒でパフォーマンスが向上 JetBrainsがRust IDEをリリース:RustRover PHPの最新統計:市場シェアは70%を超え、CMSの王様が Pythonプログラムを移植Mojo、パフォーマンスは 250 倍向上し、C よりも高速です 。.NET 8 のパフォーマンスは大幅に向上し、.NET 7 をはるかに上回っています。 JS の 3 つの主要なランタイム: Deno、Bun、Node.js の比較 Visual Studio Code 1.82 NetEase Fuxi は従業員の「バグのため人事に脅されて亡くなった」に応じました。 Unity エンジンは来年からゲームのインストール数に応じて課金されるようになります (ランタイム料金)。
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/5944765/blog/10110640