Jiuzhang Yunji DataPilot: ベクトルの海に乗り出す大規模モデル用のデータ ナビゲーター

AIの三大要素として計算能力、アルゴリズム、データが知られています。今回の火災の生成 AI と大規模モデルも例外ではありません。

国内外のハードウェアメーカーやクラウドメーカーの隆盛に伴い、AIのコンピューティング能力は最も実現しやすい要素となっており、AIアルゴリズムも比較的成熟した古典的なアルゴリズムとチューニング手法を備えており、確実な保証を提供するAI基本ソフトウェアも多数存在する。

大きなモデルが「大きい」理由は、よりデータに関係しています。データの量が多く、データの品質が高いほど、大規模モデルの効果は高くなります。PC インターネット、モバイル インターネット、モノのインターネットなどにより大量のデータが生成され、テキスト、画像、ビデオなどのマルチモーダル形式によりデータの複雑さがさらに増しています。大規模モデルの進化のための信頼できる学習源を提供するために、データの保存、計算、循環を効果的に解決する方法は、大規模モデルの開発における最優先事項となっています。

基本的なAIソフトウェアを提供するJiuzhang Yunji DataCanvasは2023年6月30日、北京で新製品発表会を開催し、人工知能アプリケーション構築のためのインフラプラットフォームAIFSをリリースするとともに、世界初のデータ「Vector Ocean」も発表した。 (Vector Ocean) そして、「Vector Sea」を泳ぐ大規模モデルに基づく新世代のデータ アーキテクチャ ツール製品である DataPilot データ ナビゲーターを発売しました。

Jiuzhang Yunji DataCanvas 製品戦略マップ

データ開発の究極の形Vector sea

AI とデータは常に密接に関係しています。従来、AI の素材や基本要素として考えられてきたデータは、AI への一方向の出力に近いものでしたが、大規模モデルの登場により、データが AI によって逆に強化されるようになりました。

AI の機能が飛躍的に進歩し、データによる「双方向の移動」が実現したとき、データの未来はどこにあるのでしょうか? DataPilot が出した答えは、「ベクトルの海」です。

ベクトルとは、数学用語であり、大きさと方向を持つ量を指します。2 次元空間では、ベクトルは通常、水平方向と垂直方向の大きさを表す 2 つの値で構成されます。3 次元空間では、ベクトルは通常 3 つの値で構成され、3 方向の大きさを表します。

コンピューター サイエンスでは、ベクトルは一般的に使用されるデータ構造であり、配列またはリストとも呼ばれます。各ベクトルには多数の要素が含まれており、各要素には対応する値にアクセスしたり変更したりするために使用できるインデックスがあります。

機械学習とデータ サイエンスでは、ベクトルは通常、多次元の数値空間を形成する一連の数値として表されます。ベクトルの各次元は、画像内のさまざまなピクセルのカラー値、テキスト内の各単語の頻度など、空間のさまざまな特徴や属性を表します。ベクトルに対して数学的演算を実行することにより、クラスタリング、分類、回帰などのさまざまな機械学習アルゴリズムやデータ分析手法を実装できます。

「Vector Sea」の提案は、Jiuzhang Yunji DataCanvas がデータベース分野での長年の研究と実践に基づいて、ベクターデータの開発方向と組み合わせて創造的に提案した究極のデータ開発形式です。

DataPilot ベクトルの海に乗り出す大規模モデル用のデータ ナビゲーター

今回、Jiuzhang Yunji DataCanvas が提案する DataPilot は、ベクター海と大規模モデルの架け橋として、大規模モデルにおけるベクターデータの適用の方向性を示し、リンクを確立する役割を担っています。

新しいデータ処理パラダイムおよび大規模モデルに基づく新世代のデータ アーキテクチャ ツール製品として、DataPilot はユーザーがライフサイクル全体におけるデータ モデリングのインテリジェンスと自動化を実現できるように支援します。

Jiuzhang Yunji DataCanvas の副社長である Zhou Xiaoling 氏によると、DataPilot の機能には、マルチモードの「ベクター シー」データ アーキテクチャ、オンデマンドの自動データ統合、コード生成、プロセスの配置と分析計算、およびデータの取得、分析が含まれます。自然言語に基づく分析、機械学習モデリング機能。DataPilot は、データ統合、ガバナンス、モデリング、計算、クエリ、分析、機械学習モデリングの技術的閾値を大幅に引き下げ、データ駆動型のビジネス開発のコストを削減し、デジタル イノベーションのプロセスを加速します。

これはまさに「ベクトル海」の概念に基づいており、DataPilot には DataCanvas RT リアルタイム意思決定センター プラットフォーム、オープンソース DingoDB マルチモーダル ベクトル データベース、その他のデータ ソフトウェアが含まれているため、ユーザーはリアルタイムでマルチモーダルなデータを利用できます。 AI技術のブレークスルー能力の場合に緊急に必要となるモーダルデータ。

その中でも、DingoDB は、オープンソースのマルチモーダル ベクター データベースとして、ベクター シー時代の強力なエンジンとなります。データ レイクとベクター データベースの特性を組み合わせており、あらゆるタイプ (キーと値、PDF、オーディオ、ビデオなど) およびあらゆるサイズのデータ​​の保存をサポートします。DingoDB を通じて、ユーザーは構造化データか非構造化データかを問わず、専用のデータ「ベクターシー」を構築でき、たった 1 セットの SQL だけでマルチモーダルデータの分析と科学計算を完了できます。

ベクトルデータベース未来が来た

昨年以来、生成 AI と大規模モデルの爆発的な増加により、ベクトル データベースが頂点に立っています。

ベクトル データベースは、埋め込みベクトルの保存、インデックス付け、およびクエリに特化したデータベース システムとして、大規模なモデルが知識ベースをより効率的に保存および読み取り、低コストで Fine Tune (モデルの微調整) を実行できるようにします。同時に、ベクトル データベースにはマルチモーダル機能も備わっており、大規模モデルの時間と空間の境界を大幅に拡張できます。これらすべては、ベクトル データベースを大規模モデルの優れたデータ コンパニオンにすることを目的としています。

ベクトル データベース市場は巨大ですが、まだ 0 ~ 1 の段階にあります。昨年以来、国内外の多くのベクターデータベース製品が多額の資金調達を受けています。東北証券の予測によると、2030年までに世界のベクトルデータベース市場は500億ドルに達し、国内のベクトルデータベース市場は600億元を超えると予想されています。

「データの効果的な保存、計算、流通には、まだ開発の余地が広く残されています。現実世界では、業界、企業、専門職の間に独立したデータ領域が多数存在します。データの膨大さとデータ領域への侵入の難しさは、データ領域に侵入することの難しさを示しています。一般的な大型モデルは着陸が難しい」と九張雲吉データキャンバス会長のファン・レイ氏は語った。

Vector Sea と Vector Database DingoDB を備えた DataPilot の登場は、大規模モデルの新世代のデータ問題を解決するために生まれました。将来に向けて、DataPilot は大規模モデルの開発において強力な足跡を残すことが期待されています。

おすすめ

転載: blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/131667530