AI とデータが双方向で強化され、DingoDB がベクターシー時代の超強力なエンジンとなる

「Vector Ocean」は、データベース分野での長年の研究と実践に基づいて、九張雲基データキャンバス社が創造的に提案し、ベクターデータの開発方向と組み合わせた究極のデータ開発形式です。 Jiuzhang Yunji DataCanvas 新製品発表カンファレンスで、Jiuzhang Yunji DataCanvas Company のシニアプロダクトディレクターである Hu Zongxing 氏は、「Vector Sea」の開発コンセプトと中心的な意味を詳細に分析し、Vector Sea の超強力なエンジンを詳細に紹介しました。 Vector Sea 時代 - DingoDB、ユーザーが独自のデータ「Vector Sea」を構築して、大規模モデルの時代にデジタル変革とアップグレードを加速する方法。

ここに画像の説明を挿入します

Jiuzhang Yunji DataCanvas Company シニア プロダクト ディレクター、Hu Zongxing 氏

講演録

オンサイトおよびオンラインの友人の皆様、こんにちは。Vector Ocean をご紹介します。データ開発の歴史全体を振り返ると、データ ウェアハウスがデータ開発の最初の段階であることに疑いの余地はありません。さまざまなビジネス システムからのデータが収集、変換、クリーンアップ、統合され、均一に保存され、上位レベルの BI とレポート作成をサポートします。ビジネスはビジネス上の意思決定を実行します。データ量の増大とデータタイプに対する需要の多様化に伴い、時代の要請に応じてデータレイクが出現し、主にデータウェアハウスが構造化データをサポートしていないという問題を解決しました。同時に、データ ウェアハウス構築のプロセスでは、すべてのデータを統合するために階層モデリングの考え方を採用する必要がありますが、実際のニーズは柔軟で変化しやすいことがよくあります。データ ウェアハウス システムでは、柔軟で変化する需要にどのように対処するかが非常に難しく、非効率的です。データレイクはまったく逆の考え方を採用し、すべてのデータをレイクに統合し、ユーザーのニーズに基づいてデータを処理しますが、これにはいくつかの潜在的な問題も伴います。

まず第一に、科学的で効果的なガバナンス手法がなければ、データレイクは沼地になってしまいます。さらに、データ レイクには構造化データと非構造化データの両方が含まれており、ビジネスに正確なデータ モデルとアルゴリズム モデルを提供する方法は業界の共通の課題です。第三に、構造化データ レイクと非構造化データ レイクの名目上の統合では、すべてのデータがストレージ メディア上のレイクに組み込まれるだけであり、本質的にはデータは統合および統合されていません。

Vector Ocean は、データ ウェアハウスとデータ レイク アーキテクチャの欠点に対処するために、長年データ分野に深く関わってきた Jiuzhang Yunji によって提案された新しいデータ アーキテクチャのアイデアです。その目標は、上位層のビジネスをサポートする一連のストレージ エンジンとコンピューティング エンジンを使用して、構造化データと非構造化データの統合を実現することであり、Vector Ocean はデータ開発の最終形態です。 Vector Ocean は、従来のデータ分析と AI アルゴリズムを組み合わせた新世代のデータ アーキテクチャです Vector Ocean には、従来のデータ ウェアハウスや MPB データベースの構造化データだけでなく、KA、ドキュメント、半構造化データ、およびデータが含まれています 非構造化データが最も多く占めていますこれらの非構造化データには、オーディオ、テキスト、画像、ビデオ、その他のデータが含まれます。最終的にはすべてのデータが Vector Ocean に収容されます。Vector Ocean は、AB 分析、ベクトル検索、マルチモードを提供します。ベクトル コンピューティングの能力により、統合が実現されます。構造化データと非構造化データを統合して、BI、AI、データ サイエンスの上位レベルのインテリジェント アプリケーションをサポートします。

Vector Ocean データ エコシステムの構築には通常、いくつかのステップが必要です。最初のステップは、さまざまなビジネス システムやさまざまなストレージ メディアからすべてのデータをストレージ レイヤーに取り込むことです。ストレージ レイヤーでは、すべてのデータ形式が統合されます。ストレージ層の上には、ビジネスニーズに基づいてデータ処理や計算を実行するためのさまざまなコンポーネントが必要ですが、エコロジカル構築プロセス全体から見ると、多数のコンポーネントが展開およびインストールされており、これらのコンポーネントには関連する連携が必要です。目標全体を完了します。振り返ってみると、必要な機能はこれらのコンポーネントの機能の一部であることがよくあります。実際には、多数のコンポーネントをインストールしてデプロイしています。市場にあるほぼすべてのオープンソース コンポーネントがインストールされて使用されるため、このコストの無駄はデータの一貫性の問題も引き起こし、どのように合理化して最適化するかが複雑かつ困難な問題となります。

Vector Ocean の時代に、構造化データと非構造化データの統合を実現し、同時に運用レベルの高可用性と高拡張性の製品を提供できる、すぐに使えるワンストップ製品はあるでしょうか?

DingoDB - Vector Ocean の超強力なエンジンです。DingoDB は、構造化データと非構造化データを共同で保存および分析する機能を提供するオープンソースのマルチモーダル ベクトル データベースです。また、ベクトル検索およびマルチモーダル ベクトル計算機能も提供します。 Vector Ocean時代の鍵となる基本サポートプラットフォーム。 DingoDB の論理アーキテクチャを簡単に説明すると、ストレージ層、コンピューティング層、上位プロトコル層の 3 つの層に分かれています。ストレージ層には、構造化データに対応するリレーショナルストレージと、ベクトルエンコード後の非構造化データのベクトルストレージが含まれる。ストレージ層の上にはコンピューティング エンジン層があり、これにはマルチモーダル オプティマイザーとマルチモーダル エグゼキューターが含まれています。ユーザーの実際のニーズが Dingo に入力されると、オプティマイザーはデータ自体の特性、データの分散、各ノードのリソース状況に基づいて最適な実行効率を提供します。同時に、Dingo の実行エンジン層は、Dingo 自身のデータ ストレージにクエリを実行できるだけでなく、サードパーティのウェアハウス ストレージや S3 対応のレイク ストレージにも接続でき、データの融合と計算を真に実現できます。コンピューティング エンジン レイヤーの上には、クラスター全体の統合リソース ダイアグラムとメタデータ ダイアグラムがあります。プロトコル レイヤーは、標準のマスキング プロトコルと高頻度サービス API、および生のベクトル API を提供します。Dingo のすべての機能は、構造化された分析をサポートするために統合されています。セマンティック検索、構造化データと非構造化データの融合分析機能、および大規模モデル時代のベクトル検索機能とベクトル保存機能。

DingoDB の核となる価値は、まず第一に、DingoDB は構造化データの統合保存と共同分析を実現できるマルチモーダル エンジンであり、ベクトルに基づいてすべてのデータを均一に統合し、ベクトルに基づいてデータ検索と融合分析を実行できることです。 。同時に、プロトコル層では、構造化ニーズと非構造化ニーズをつなぐための言語セットである標準sergoプロトコルを提供します。 Dingo はマルチモーダル ベクトル データベースなので、ベクトル データベースと同じなのではないかという人もいます。 3 番目の点は、この質問に非常によく答えます。Dingo はベクトル データベースであるだけでなく、ベクトル データベースをはるかに超える機能も提供します。ベクトル検索とベクトル ストレージに関しては、Dingo にはデータやインデックスの問題などの新機能も備わっていますが、ベクトル データベース内のデータとインデックスの一貫性をどのように確保するかは、実際には業界で共通の課題となっています。 Dingo は、データの書き込み中にインデックスのリアルタイム同期を確保し、データとインデックスの一貫性を確保します。さらに、ベクトル コンピューティングとスカラー コンピューティングは、異なるコンピューティング リソースを消費する 2 つの異なるコンピューティング モードであり、Dingo は、効率的な分析と科学技術コンピューティングを実現するために、CPU と GPU のヘテロジニアス コンピューティング機能を提供します。

Dingo の最下層は、ロボット プロトコルを複数のコピーとして使用して、データの一貫性、データとインデックスの一貫性、および複数のコピー間の一貫性を確保します。ノードが異常に切断またはダウンした場合でも、本番レベルの高可用性。ベクトル コンピューティングとエッジ コンピューティングでは、ストレージとコンピューティング リソースの消費量が大きく異なります。Dingo は水平方向の拡張機能を提供し、コンピューティングとストレージのニーズに基づいてノードの柔軟な拡張を実現できます。

現在最もホットなトピックは大規模モデルですが、Dingo マルチモダリティは大規模モデルの時代にどのような機能を提供しますか?要約すると、いくつかのポイントがあります。

1. エンタープライズプライベートドメインデータのサポート。大規模モデルは過去の知識を蓄積した普遍的なモデルですが、垂直用途に適用する場合は企業のプライベートデータなど特殊なデータが必要になります。 DingoDB は、企業のプライベート データのストレージ拡張機能として、また大規模モデルのフロントエンド エンジンとして機能し、大規模モデルにフロントエンド サポートを提供し、大規模モデルが最適な答えを生成できるように支援します。

2. 大規模モデルの短期記憶。質問と回答に対応するすべてのプロンプト単語とコンテキストは DingoDB にベクトル化でき、検索結果は DingoDB に保存され、すべてのデータは再トレーニングのために大規模なモデルにフィードバックされ、より現実的なアプリケーション シナリオが提供されます。
3. 大型モデル アクセラレータ。 ChatGPT を使用すると、特にビジネスのピーク時に不親切な経験をし、応答速度が比較的遅くなります。主な理由は、すべてのリクエストが大規模なモデル層に送信され、コンピューティング能力がボトルネックになるためです。 DingoDB を大規模モデルの前に配置して、大規模モデルを高速化する機能を実現できます。

DingoDB がサポートできるビジネス シナリオを要約すると、まず、構造化および非構造化の統合ストレージと共同分析の機能に基づいて、DingoDB は企業のナレッジ ベースの構築をサポートし、企業の運用効率とビジネス分析機能を向上させることができます。第 2 に、企業のプライベート ドメイン データの管理において、大規模モデルの高速化と一部の大規模モデル支援が提供されます。第三に、DingoDB は高頻度のサーバー機能を提供し、マイクロ秒レベルの応答を提供し、リアルタイムの指標計算機能を実現します。リアルタイムのリスク管理などの一部の伝統的な業界では、リアルタイムのリスク管理でビジネスの強化を実現できます。マーケティング、推奨、その他のシナリオ。同時に、従来の非構造化データ検索業界において、DingoDB はテキスト、画像、ビデオなどの非構造化データの検索を完全に強化できます。 DingoDB は、Vector Ocean 時代の基本的なサポート プラットフォームとして機能し、構造化データと非構造化データの統合ストレージと統合コンピューティング機能を提供します。大規模モデルによってもたらされる技術的変化により、DingoDB は企業がデータと AI の方向でビジネス インテリジェンスからデジタル人工知能への包括的なアップグレードを達成するのに役立つと考えられています。

おすすめ

転載: blog.csdn.net/weixin_46880696/article/details/131837976