チューリングへの追悼!HashData はデータ インテリジェンスの新時代を取り入れています。

写真

図 1: 2023 年 ACM 中国チューリング会議の会場

アラン・チューリングは1912年生まれで、「コンピューターサイエンスの父」「人工知能の父」として知られています。1966 年、この傑出した科学者を記念して、国際計算機機械協会 (ACM) は、コンピューター分野で多大な貢献をした科学者を表彰するために、彼の名を冠した ACM チューリング賞を設立しました。

今日に至るまで、イノベーションと継続的な探求に重点を置くチューリングの精神は、何世代にもわたる科学者にコンピューター サイエンスの研究に専念するよう促し、その結果として生じた IT テクノロジー革命は、社会的および経済的発展にも大きな影響を与えてきました。

今日、人工知能技術革命と産業変革の新たなラウンドが到来しました。昨年末以来、多くの国内テクノロジー企業が大型模型製品を相次いで発売し、大型模型の産業応用を積極的に推進している。

AI大型モデルが熱い今、「汎用知能、人間と機械の共生」をテーマとした2023ACM中国チューリング会議が7月28日から30日まで武漢で開催された。中国のクラウドネイティブ データ ウェアハウスの大手企業として、Kuke Data はこのカンファレンスに招待されました。この会議で、Kuker Data は、HashData Cloud Data Warehouse に基づいて独自に開発した次世代の高度な分析およびデータ サイエンス ツール HashML をデモンストレーションし、AI モデルの作成、適用、および大規模な実装を容易にしました。

3 層デカップリングによりデータ分析コストを削減

AI モデルのトレーニングは、大量のテキスト、画像、ビデオ データに依存する必要があります。人工知能時代において、データをいかに低コストかつ効率的に管理・活用するかは企業にとって重要な課題です。HashData クラウド データ ウェアハウスは、革新的な 3 層デカップリング アーキテクチャ設計を通じて、データの一貫性を確保し、ストレージと通話リソースを節約します。

写真

図 2: HashData 製品のアーキテクチャ

HashData のレイクとウェアハウスの統合機能は、企業がマルチモーダルなトレーニング データをワンストップで管理するのに役立ちます。製品アーキテクチャはハイブリッド クラウドに完全に適合しており、ユーザーがセキュリティ、コンプライアンス、パブリック ドメイン トレーニング データとプライベート トレーニング データの統合管理とスケジューリングを最大限に達成できるように支援します。クラウド アーキテクチャによってもたらされる完全な弾力性と同時実行性は、ほぼ無制限の水平拡張をサポートし、長期にわたる高密度のデータ抽出とコンピューティングに対するユーザーのピーク要求に応えます。さらに、HashData は 10 億レベルのベクトル ストレージをサポートし、大規模なモデルのトレーニングに対する基本的なサポートを提供します。

同時に、HashData クラウド データ ウェアハウスは、クラウド プラットフォームの弾力性と拡張性を最大限に活用し、基盤となるオブジェクト ストレージにデータを永続化することで、企業のデータ分析コストを大幅に削減できます。

HashData データ ウェアハウスは、さまざまなパブリック クラウドやハイブリッド クラウドにシームレスに接続でき、データ ウェアハウス、データ レイク、データ サイエンス、データ エンジニアリング、データ共有などの機能を統合プラットフォーム上で提供し、数千万のデータベース オブジェクトと 100 のデータベース オブジェクトをサポートできます。 +PB データ量、数千の同時アプリケーション。

さらに、オブジェクト ストレージをサポートすることで、HashData は複数のパブリック クラウドやハイブリッド クラウドと完全に互換性のあるデータ管理機能を提供し、企業のマルチクラウド戦略の実装に柔軟で使いやすいソリューションを提供できます。

2 つのエンジンが大量のデータを効率的に管理

データインテリジェンスの産業チェーンでは、インフラストラクチャの構築とモデルの作成と適用が、AI の大規模モデルを開発する唯一の方法であり、機械学習は Al の成長にとって重要な「把握」です。

従来の MPP アーキテクチャ データベースには、サポートされるアルゴリズムの種類が限られている、データの並列トレーニングが不足している、新しいアルゴリズムの開発が難しいなど、機械学習ソリューションにおいて多くの問題があり、データ管理やモデル開発のニーズを満たすことが困難になっています。

対照的に、HashData には 2 つのコンピューティング エンジンがあります。SQL クエリ分析タスク用の MPP コンピューティング エンジンと、機械学習およびディープ ラーニング タスク用の ML/DL コンピューティング エンジンです。

HashData は、ストレージと計算を分離するアーキテクチャに基づいて、SQL コンピューティング エンジンを通じて従来のデータ ウェアハウス ビジネスを適切にサポートするだけでなく、ML/DL コンピューティング エンジンの助けを借りて機械学習とディープ ラーニングの効率的なサポートを実現します。はライブラリに含まれています。環境は大規模な言語モデルを微調整し、推論します。HashML は、HashData の強力なコンピューティング エンジンを使用して Kuker Data によって作成された、次世代のデータベース内高度な分析およびデータ サイエンス ツールです。

 図 3: HashData デュアル コンピューティング エンジン アーキテクチャに基づいた HashML の構築

同時に、HashData は大規模なベクトル データの効率的な保存と取得も実現し、知識強化に基づいた LLM インテリジェント アプリケーションの構築を容易にします。

大規模モデルの大規模アプリケーションを促進するための一歩を踏み出す

AIモデルの開発が完了したら、最終的にその価値を実現するには実際の本番環境に導入する必要があります。

国際研究機関である Gartner の調査によると、AI プロトタイプから本番環境に移行できるプロジェクトは 53% のみです。AI 制作のコンバージョン率が低い主な理由は、チーム間のコラボレーションの難しさ、プロセスと資産の管理の欠如、制作と納品のサイクルが長いなど、モデルのライフサイクル管理に問題があることです。

これらの問題を解決するために、HashML はデータ クエリ処理、高度な分析から ML/DL モデルのトレーニング、推論、サービス デプロイメントに至るまでのツールのフルセットを提供し、大規模な言語モデルの微調整と推論のフルリンク サポートを実現します。たとえば、HashML を利用すると、LLaMA2 モデルのパラメータを少なくとも 3 行のコードで効率的に微調整できます。

写真

図 4: HashML を使用した LLaMA2 モデルの微調整

HashML と HashData クラウド データ ウェアハウスは、統合されたストレージとコンピューティング リソースを共有し、データ ウェアハウスの展開ですぐに使用できるワンストップ デリバリー AI 機能を提供します。これにより、システム展開のコストと複雑さが大幅に軽減され、開発者は次のようなメリットを得ることができます。統合されたデータクエリ、分析、モデリング環境を備えています。

写真

図 5: HashML の主な機能の概要

高度なアルゴリズムと優れたパフォーマンスを備えたデータ サイエンス ツールとして、HashML はユーザーがモデルを効率的かつ簡単に構築、トレーニング、デプロイできるよう支援し、モデリングの敷居を大幅に下げ、ユーザーがより適切な条件を満たすために複数のモデル アーキテクチャとパラメータを短時間で組み合わせて試すことができるようにします。複数のアプリケーションシナリオのニーズに対応します。

現在、HashML のさまざまな機能が集中的に改善されており、最初の正式版は 8 月にリリースされる予定です。その際、当社はすべてのパートナーに実証テストへの参加を呼びかけ、迅速な製品アップグレードを促進し、AIの実装を加速し、AIがあらゆる分野に恩恵をもたらすようにしていきます。

おすすめ

転載: blog.csdn.net/m0_54979897/article/details/131998313