ショック!人気の ChatGPT の背後にあるデータベースは、実際には...

要約: ChatGPT は、その背後にあるデータベースが Cassandra であることを認めました。

OpenAI が最近リリースした AI 駆動のインテリジェント チャット ロボット ChatGPT はインターネット上で旋風を巻き起こし、この新しい AI の成果を試してみたいと考えているネチズンは少なくありません。ChatGPT は、ネチズンからの幅広い質問に対して、非常に的を絞った回答を提供します。その驚くべき能力は、主要メディア プラットフォームのヘッドライン ニュースになりました。その内部アルゴリズム モデル、アプリケーション分野、実装原理も広く議論され、誰もが検討しています。データベース実務家の皆さん、当然その秘密を探っていきたいと思いますので、一緒に見ていきましょう。

ワイルドポスト

最初は、LinkedIn への投稿がみんなの注目を集めましたが、北米のデータベース会社 DataStax の開発者であり、Cassandra データベースの開発者でもあるパトリック氏は、これは非常にワイルドで想像力に富んだニュースだと LinkedIn に投稿しました。その背後で使用されているのはカサンドラです!

簡単に言えば、Patrick は ChatGPT に、Cassandra を AI モデルのトレーニングに使用する例をいくつか挙げてもらえないかと尋ねましたが、この時点で ChatGPT は、OpenAI がこのデータベースを使用してトレーニング データとモデル ノードを保存していると直接答えました。この目標を達成するために、OpenAI は、Cassandra と対話する Cassio という AI 開発プロセス用のツール チェーンのセットを作成することもあります。上記の情報に関して、回答ではツール チェーンのソース コードとドキュメント リンクも提供され、最後にコード サンプルが生成されます。

この答えは人々に非常に現実的なものを感じさせ、ChatGPT が言ったように、ネットワーク全体で人気のある AI アプリケーションの背後にあるデータベースが Cassandra であるというのは本当なのかと疑問に思わずにはいられません。編集者もこの疑問に非常に興味があるので、検証してみましたので、見ていきましょう。

オンラインリソースによると、AI分野でのCassandraの使用についてChatGPTに質問しようとした人もおり、次のような返答を得たそうです。

ChatGPT は、Cassandra が分散データベースとしてリアルタイム AI ストレージで非常に競争力があり、エンタープライズ レベルのアプリケーションで大きなシェアを占めていることを認識しており、リアルタイム AI アプリケーションにとって信頼できる選択肢であることが証明されています。同時にサポートされる複数のデータ型は、AI アプリケーションでの幅広い応用の可能性を秘めています。ただし、Cassandra と ChatGPT の関係を証明するには、さらに直接的な証拠が必要です。

魂の拷問

リソースを持つ関係者は、内部でテストされている新しい Bing を通じて、OpenAI による Cassandra の使用に関する真実を探ろうとしています。新しい Bing には、ChatGPT の拡張バージョンが組み込まれており、対話コンテンツを取得して質問に回答する機能において、公開バージョンよりも強力です。ここでは、新しい Bing OpenAI が Apache Cassandra データベースを使用するかどうかを直接尋ねます。

新しい Bing の回答は、最初に Cassandra を賞賛し、次に OpenAI が Cassandra データベースを使用したことを直接確認しませんでしたが、OpenAI が歴史的にこのデータベースを使用した可能性があるといういくつかの証拠も提供しました。同時に、回答の中に GPT-3 を使用してこのデータベースを操作する方法を示す YouTube ビデオがあることがわかりました。OpenAI のシニア エンジニアである David Greenbery は、Apache Foundation の Cassandra プロジェクトのコード提出者でもありました。もちろん、この答えでは OpenAI が Cassandra を使用しているかどうかという質問は満たされないため、新しい Bing に対して、ChatGPT が本当に Cassandra データベースを使用しているかどうかをより直接的に尋ねます。

今回の回答では、さらに新しい情報が提供されていますが、ChatGPT が Cassandra データベースを使用していることはまだ直接認められていません。ただし、Cassandra を称賛すると同時に、データ クエリ ステートメントの作成の支援や関連データ チャートの生成など、AI 分野での具体的なアプリケーションの 3 つの例も示しています。この詳細な回答を見ると、そのようなアプリケーションが OpenAI 内にすでに存在しているのではないか、ただ公に認められていないだけではないかと疑問に思う人もいるでしょう。

同時に、Bing の現在の ChatGPT バージョンはまだ最終リリース バージョンではないため、フォローアップの回答が変更されるかどうかはわかりません。新しい Bing が最終的にリリースされるとき、Cassandra がビジネス サポートとして使用されるかどうかはまだ不明です。ただし、この AI アプリケーション シナリオでは、Cassandra データベースが最良の選択であると確信できます。

存在は実在するのか

DataStax の従業員は、より深い探索と対話を行った結果、ChatGPT が存在しないリンクをさらに提供していることを発見しました。この証拠は、関連するアプリケーションの証拠とツールチェーンが以前はネットワーク上に存在していたが、削除されただけであることを示している可能性もあります。しかし、多くの証拠が依然としてインターネット上に散在している可能性があります。世界最大の産業オートメーション企業の 1 つであるロックウェル・オートメーションも、産業需要予測における AI の応用を紹介する記事を発表しました。OpenAI による Cassandra の AI 分野への応用に関する多くのニュースは、この可能な応用の方向性と関連する見通しを明確に示しています。これまでのところ、OpenAI が使用する技術スタックとデータベースを公的に認めていないとしても、Cassandra は関連サービスに適用される可能性がかなりあると考えられます。

現実世界のソリューション

ChatGPT の Apache Cassandra の紹介では、その機能の多くがカバーされており、アプリケーション シナリオについても十分に説明されており、分散型、高可用性、低遅延、高災害復旧機能の説明も非常に正確です。AI の大規模なアプリケーションは、大量のデータの保存と処理から切り離せません。効率的なデータベースは、AI モデルのトレーニングと展開の段階で特に重要です。読み取り速度が速く、アーキテクチャが優れており、一貫性が強化されています。人工知能モデルのトレーニングと応用。

たとえば、1,750 億個のパラメータを持つ ChatGPT モデルは、トレーニング中に大量のデータを必要とします。分散トレーニング環境でこれらのデータの読み取り速度や一貫性などの問題を解決するにはどうすればよいでしょうか? 同時に、世界中の何億人ものユーザーを前にして、すべての ChatGPT ビジネスの同時実行性をどのようにサポートすればよいでしょうか?

私たちのソリューションは、GaussDB (Cassandra 用) など、効率的で安定した大容量の Cassandra データベースを使用することです。

HUAWEI CLOUD GaussDB (Cassandra 用) は、Huawei が独自に開発したコンピューティングとストレージの分離アーキテクチャに基づく分散データベースです。Cassandra エコシステムと 100% 互換性があります。便利な管理や強力な一貫性などの一連の利点により、非常に適しています。大規模な同時実行やトラフィックのホットスポットなどのシナリオに適しています。

GaussDB(Cassandra用)のAI分野への応用に関する研究

配布パズル

GaussDB (Cassandra 用) の分散型強整合性と、HUAWEI CLOUD によってサポートされるコンピューティング ノードの拡張および第 2 レベルのストレージ拡張により、AI モデルのトレーニングが強力にサポートされます。複数のノードが同時にデータにアクセスする場合、オープンソース Cassandra の最終整合性と比較して、GaussDB (Cassandra 用) が提供する強力な整合性機能により、各トレーニング ノードがリアルタイムでデータの整合性を確保し、トレーニング ノードの信頼性が保証されます。トレーニングプロセス中のデータ入力。

データ構造

Cassandraの幅広いテーブル構造により、柔軟なデータ定義が可能になります。生データ入力の保存に優れた利点があり、AI トレーニング シナリオの変更にも適しており、下流のきめ細かい最適化や AI モデルの微調整タスクに適しています。

長い訓練

長期間にわたってトレーニングされた大規模なモデル プロジェクトの場合、データベースの高可用性は非常に重要であり、データベースの変動はモデル トレーニングの進行に大きな影響を与えます。この点、GaussDB (Cassnadra 用) は 3 コピー形式を採用しており、データは損失の危険がなく安全で信頼性があります。同時に、PB レベルの大容量データ ストレージをサポートしており、オンライン ビジネスに干渉したり中断したりすることなく、ストレージ容量を数秒で拡張できます。

複雑なクエリ

ダウンストリームのターゲットを絞ったトレーニングとモデルの堅牢性テストでは、特別な属性を持つデータを抽出する必要があります。GaussDB (Cassandra 用) は、大量のデータのクエリ パフォーマンスを最適化し、ビュー拡張機能を導入し、情報フロー、コンテンツ検索、およびその他のサービスのクエリ要件を満たすようにテーブル構造の設計を最適化します。同時に、Lucene エンジンの新しいソリューションはオンラインでテストされており、複雑なテキスト コンテンツを含むより多くのクエリ シナリオをサポートし、NoSQL データベースの弱いクエリを完全に補っています。

超高同時実行性

世界中の何億人ものユーザーが ChatGPT にアクセスする状況では、GaussDB (Cassandra 用) も大規模なトラフィックに対する適切なサポートを提供できます。使用されている LSM ツリー ストレージ エンジンは、書き込み量の多いシナリオに優れた効果を発揮し、ユーザー データを効率的に保存できるだけでなく、高速オフライン エクスポート分析のサポート、超高同時サービスのサポート、およびデータ変更のキャプチャと実際のデータのサポートもサポートします。 -時間分析。

要約すると、私たちは ChatGPT の背後にあるデータベースを調査し、AI 分野での GaussDB (Cassandra 用) のアプリケーション実践を調査しました。誰もが ChatGPT と GaussDB (Cassandra 用) について予備的な理解を持っていると思います。実際、GaussDB ( Cassandra 用) はすでにソーシャル サービスのあらゆる側面に拡張されており、さらに多くのアプリケーション シナリオが誰もが探索できるのを待っています。

では、なぜ ChatGPT バックグラウンドをサポートするデータベースを GaussDB (Cassandra 用) にできないのでしょうか?

クリックしてフォローして、Huawei Cloudの最新テクノロジーについて初めて学びましょう~

おすすめ

転載: blog.csdn.net/devcloud/article/details/129166345