[2023 Yunqi] 大規模モデルが DataWorks データ開発およびガバナンス プラットフォームのインテリジェントなアップグレードを推進

大規模なモデルが AI テクノロジーの革新の波を引き起こすにつれて、ビッグデータも AI と緊密に統合される革新的な時期に入りました。2023 Yunqi Conference で、Alibaba Cloud DataWorks プロダクト マネージャーの Tian Qixian 氏は、DataWorks Copilot、DataWorks AI 強化分析、DataWorks レイク ウェアハウス統合データ管理など、多くの新製品機能をリリースしました。 14 年間開発されてきたプラットフォーム製品は常にアップグレードされ、ワンストップからインテリジェントに進化しています。

データ+AI二輪駆動

AIGC 時代に入り、今日では AI for Data と Data for AI がホットワードになっています。AI for Data の方が理解しやすいですが、大規模なモデル駆動型の AI インテリジェント アシスタントを通じて、データ プラットフォーム ツールの効率を向上させることができます。DataWorks は、企業向けにワンストップのフルリンク ツール チェーンを構築し、その過程で、データ モデル、メタデータ、データ リネージ、データ インジケーターなどの企業向けのデータ資産も継続的に構築してきました。これらは、エンタープライズ固有のドメイン知識とも呼ばれます。大規模モデルの強力な意味理解、推論、コンテキスト学習、およびメモリ機能の助けを借りて、大規模モデルのプロンプト エンジニアリングを通じて、DataWorks のワンストップ プラットフォームは、 AI インテリジェント アシスタントに、より緊密でタイムリーかつ包括的なコンテキスト情報を提供することで、AI はより良い結果とパフォーマンスを達成できるようになります。これが AI のためのデータです。優れたデータ基盤により、本日リリースした新製品の多くは AI ラージ モデルの機能に依存しており、データ + AI の両輪を通じてデータ開発と分析の新しいパラダイムを提供し、企業の効率をさらに向上させます。データ値を取得する際に。

Yunqi リリース: DataWorks Copilot インテリジェント SQL プログラミング アシスタントにより、データ開発と分析の効率が 30% 向上

DataWorks Copilot は、NL2SQL 大規模モデルに基づく SQL プログラミング アシスタントです。公開データ セットに基づいてトレーニングおよび微調整された NL2SQL 大規模モデルをプロンプト エンジニアリングと組み合わせて使用​​し、自然言語で生成された豊富な SQL 操作を提供します。

  • SQLの生成

「過去 7 日間の製品売上ランキングの統計」など、クエリおよび分析したい自然言語による説明を入力すると、DataWorks Copilot が対応する SQL ステートメントを自動的に生成します。

  • SQLの継続

SQL IDE で SQL コードを作成する場合、DataWorks Copilot はインテリジェントなコード プロンプトと提案を提供して、SQL プログラミングの効率を向上させることができます。

  • SQLエラー修正

SQL の実行中にエラーが報告された場合、DataWorks Copilot はワンクリックのエラー修正サービスを提供し、ETL エンジニアやアナリストが SQL エラーを迅速に修復できるようにします。

  • SQLコメント

以前はコードのコメントを書くのが面倒で、自分たちではコメントを書きたくなかったのですが、他の人のコードにはコメントを付けたいと思っていました。DataWorks Copilot は、テーブル作成ステートメントのフィールド コメント情報をバッチで生成でき、SQL ステートメントに行ごとのコメントを追加して SQL の読みやすさを向上させることもできます。

  • SQLの説明

一部のビジネス担当者やアナリストは、データ ウェアハウス エンジニアから比較的複雑なフェッチ スクリプトを渡されることがよくあります。使用されている高度な SQL 構文や関数の一部は意味が理解できないものの、フェッチ ロジックを変更したいと考えています。あらゆる情報を入手したり、他の人にアドバイスを求めたりしてください。DataWorks Copilot は SQL コードを直接解釈できるため、ビジネス スタッフが SQL ロジックと使用法をより迅速に理解し、データ分析と SQL 学習の効率を向上させることができます。

DataWorks Copilot インテリジェント SQL プログラミング アシスタントは、しばらく社内で使用されており、観察によると、ETL 開発とデータ分析を 30% 以上向上させることができます。

GUI からLUIまで DataWorks Copilot はETLデータ ウェアハウス開発を支援します

グラフィカル ユーザー インターフェイス (GUI) は 40 年以上前に登場しました。大規模モデルの強力な自然言語理解能力は、新しい自然言語ユーザー インターフェイス (LUI) をもたらしました。これは人間とコンピューターの新しい対話方法でもあります。ソフトウェアLUI を提供するかどうかも、AI スマート アシスタントから AI ネイティブ アプリケーションに移行する大規模モデル アプリケーションの特徴的な機能の 1 つです。DataWorks はまた、複雑な製品操作ロジックを舞台裏に隠し、大規模なモデルを使用して、シンプルで直接的でより人間らしい自然言語ユーザー インターフェイスをユーザーに提供する方法を考え、模索しています。

製品の練習をしました。応用シナリオをいくつか挙げると、実際の業務ではテーブルを見つけるのが頭の痛い問題であり、指標を計算するために営業担当者はどのテーブルを使用すればよいかを蛙倉出身のクラスメートに尋ねる必要があり、この種の相談には蛙倉出身のクラスメートが対応する毎日とてもイライラしています。DataWorks Copilot は、自然言語による素早いテーブル検索を提供できるため、テーブルを検索する際に質問する必要がなくなり、企業のデータ消費効率が向上します。ETL 開発プロセスでは、スケジュール設定、パラメータ設定、データ品質ルール設定など、比較的複雑または煩雑な操作がいくつかあります。これまでは、別の製品ページに行ったり来たりして手動で設定する必要があることがよくありました。 DataWorks Copilot は、会話型の自然言語ユーザー インターフェイスを提供します。統合されたダイアログ ウィンドウでは、製品間ツールの多くの操作を自然言語の対話を通じて完了できます。たとえば、「特定のテーブルに対して特定の品質ルールを構成する」と言うだけで、ルールの構成を完了できます。データ品質検査用。今後も、自然言語インタラクティブ インターフェイスの範囲をさらに充実させていきます。

リンクをクリックしてビデオを表示します: https://cloud.video.taovao.com/play/u/null/p/1/e/6/t/1/437757941217.mp4

DataWorks Copilot 製品のデモンストレーション

DataWorks Copilot は 2 つのモデル サービスを提供します。1 つ目は、パブリック データ セットのトレーニングと微調整に基づく大規模な NL2SQL モデルです。現在、Alibaba Cloud DataWorks 公式 Web サイトで招待テストへの参加を直接申し込むことができます。一部の企業が当社のモデル効果に高い期待を寄せている場合、または Copilot が企業の内部ビジネスに近い答えを提供できることを期待している場合は、Alibaba Cloud 人工知能プラットフォーム PAI と大規模モデルを組み合わせた、企業固有のモデル微調整サービスを提供できます。専門家サービスから、カスタマイズされた専用コード モデルや企業向けの民営化された大規模モデル導入サービスまで。

Yunqi リリース: DataWorks AI で強化されたデータ分析

企業はデータの生成と構築に非常に多くのリソースを投資していますが、最終的な目標は、データからビジネス価値を洞察し、企業の運営と意思決定を導くことです。従来の統計解析手法では、まず統計モデルを仮定し、データサンプルに基づいてモデルパラメータを推定してデータの特性を把握することが多くありましたが、実際には、仮定した統計モデルに当てはまらないデータが多数存在することがよくあります。探索的データ分析は、データ自体に語らせることに重点を置き、まずデータの特性と統計を調査し、その後、さらなる分析に適したモデルを選択することで、より実際の状況に即した分析手法です。AI 時代では、データの洞察はインテリジェンスに向かって絶えず進化しています。AI 強化分析では、AI テクノロジーを使用してデータの探索と洞察を加速または自動化し、アナリストが手動のデータ探索から解放されるように支援します。AI テクノロジーは、データに隠されたパターンや傾向をより適切に発見できるため、アナリストが自身の固有の認識の限界をさらに突破できるようになります。

DataWorks は、DataV データ視覚化製品および深く統合された AI テクノロジーと組み合わせて、AI 強化分析製品を発売しました。現在、次の 4 つのコア機能が提供されています。

  • 自動データ探索

データセットを自動的に探索して、専門的な技術的背景がなくてもデータの特性と統計分布を迅速に理解します。

  • AIによる自動チャート生成

自動データ探索の情報に基づいて、データ チャート カードが自動的に生成されます。AI テクノロジーと組み合わせることで、さまざまなデータ フィールドの組み合わせ間の相関関係を自動的に特定し、チャートを生成します。分析のために大量の SQL を手動で記述する必要はありません。すぐにインスピレーションを得たり、意見を保存したりするのに役立ちます。

  • AIインテリジェントなデータクエリ

大規模モデル テクノロジと組み合わせると、自然言語を通じて SQL クエリ データが生成され、クエリ結果に対してデータ チャート カードが自動的に推奨および生成されます。

  • ワンクリックでデータレポートを作成して共有

PPT を作成するのと同じように、上で生成されたデータ チャート カードを使用して、ワンクリックで長いデータ チャート レポートを生成でき、画像としてエクスポートしたり、ワンクリックで共有したりすることができます。

DataWorks AI は分析を強化し、データ自体が「語る」ようにすることで、データ インサイト プロセスを可能な限り自動化し、コードを不要にします。また、AI を通じて、データの潜在的な傾向を自動的に発見し、データ ストーリーを伝え、データの意見を表現することもできます。この製品は現在パブリック ベータ版です。DataWorks をアクティブ化し、データ分析製品を入力した後、パブリック ベータ エクスペリエンスに申し込むことができます。

リンクをクリックしてビデオを表示します: https://cloud.video.taovao.com/play/u/null/p/1/e/6/t/1/438309479548.mp4

DataWorks 拡張分析製品のデモンストレーション

Yunqi リリース: DataWorks レイク ウェアハウス統合データ管理

市場が変化し続けるにつれて、エンタープライズ ビジネスは発展を続け、企業は競争と不確実性の増大に直面しています。データのニーズは、単純なクエリと統計から BI、データ サイエンス、推奨予測、AI アプリケーションまで多岐にわたります。全体として、単純な固定クエリ統計から複雑なものまで変更可能で柔軟なインテリジェントな分析に対応するエンタープライズ データ アーキテクチャも変化しており、データベースからデータ ウェアハウス、データ レイク、そしてレイクとウェアハウスの統合に至るまで、進化のプロセス全体がより高度なデータを追求しています。企業のさまざまな柔軟なデータ ニーズに対応します。レイク ウェアハウス統合データ アーキテクチャは、データ ウェアハウスの標準化とエンタープライズ レベルの機能に加え、データ レイクの柔軟性とエコロジカルなオープン性を考慮しており、ますます多くの企業が注目するデータ アーキテクチャとなっています。

DataWorks は現在、レイクとウェアハウスの統合のデータ管理を完全にサポートしています。ストレージ レイヤーでは、オフライン データ ウェアハウス MaxCompute とリアルタイム データ ウェアハウス Hologres、およびデータ レイク ストレージ OSS/OSS-HDFS がストレージ レイヤーでシームレスに接続されています。モバイル データをコピーすると、データに対してフェデレーション クエリを実行できるようになります。これに加えて、DataWorks は統一された Hucang 統合データ管理ユーザー インターフェイスを提供します。

  • リアルタイムデータが数秒で湖に入力されます

データ統合に関しては、DataWorks 自体が 50 を超える異種データ ソースのオフラインおよびリアルタイムの同期ウェアハウスをサポートしています。今年は、レイクにリアルタイム データを入力する機能が追加され、数秒以内にリアルタイムでデータをレイクに入力できるようになり、データ同期プロセス中のデータベース テーブル フィールドの自動更新もサポートされています。このプロセスでは、メタデータの自動検出と登録も実行でき、DLF を利用すると、DataWorks データ マップ内のレイク ウェアハウスの統合メタデータ管理を実行できます。

  • Hucang は ETL 開発とスケジューリングを統合しました

MaxCompute、Hologres、Spark、Hive、Presto など、Hucang コンバージド アーキテクチャのさまざまなコンピューティング エンジンに対して、統合された ETL タスク開発、タスク オーケストレーションとスケジューリング、運用および保守サービスを提供して、統合されたデータ開発パイプラインを実現します。エンタープライズ データの問題を解決する 一貫性のないアーキテクチャは、データ生成リンクの断片化や不安定性、その他の管理が難しい問題を引き起こします。

  • 湖倉統合データガバナンス

DataWorks は Hucang 統合データ管理を新たにサポートします。レイク ウェアハウスの統合メタデータ管理、データ モデリング、データ品質管理をサポートするだけでなく、DataWorks のプロアクティブかつ自動化されたデータ ガバナンス ツール「DataWorks Data Governance Center」は、EMR+OSS データ レイクも完全にサポートします。

DataWorks データ ガバナンス センターは、成熟したデータ ウェアハウス管理機能を EMR+OSS データ レイクに完全に拡張します。Hucang アーキテクチャの下でのデータ ガバナンスの難しさを簡素化し、データ ガバナンスを単なる運動ではなく、真に持続可能で、フォロー可能で、実装可能なものにするために、DataWorks データ ガバナンス センターには「データ ガバナンス プラン」機能が追加されました。プロアクティブなデータ管理計画と診断を完了します。

データ ガバナンス プランには、データ マネージャー向けのコンピューティングとストレージのコスト管理、タスクの安定性管理などのデータ ガバナンス シナリオ用のテンプレートが組み込まれており、企業のデータ ガバナンス目標の設定をサポートし、データ ガバナンスの健全性評価の複数の側面を提供します。役立つモデル データ ガバナンスの有効性を評価しましょう。

データ ガバナンス プランは、データ ガバナンス実践者を対象としており、5 つの側面をカバーする 60 以上のガバナンス ルール ライブラリを提供します。設定されたデータ ガバナンス目標の方向性と組み合わせると、データ ガバナンス製品は、選択された目標に関連するデータ ガバナンス問題を自動的に推奨し、対応するガバナンスを提供できます。この手段と方法は、データ ガバナンス実行者が問題をタイムリーに発見して解決するのに役立ちます。同時に、データ ガバナンス センターは、問題の事前インターセプトを提供します。データ開発段階では、コード仕様の問題やタスク名の命名仕様の問題など、多くの問題を事前に発見できます。これらのプラグインは、事前インターセプトとポストインターセプトをサポートします。 -問題発見プラグインは事前に傍受することができ、これらはすべてサポート企業が自身を定義できるようにします。

データ ガバナンス アプリケーション: コストの最適化 - 無効なタスクの自動オフライン

企業のビジネスが変化し続け、企業の人事担当者が変わるにつれて、必然的に無効なデータ タスクがますます多くなり、毎日多額のコンピューティング コストとストレージ コストが消費されます。従来の手動ガバナンスでは、複雑な影響分析を行うためにデータ エンジニアによる手動の分析と判断が必要であり、影響を受ける関連担当者とのコミュニケーションとコラボレーションのコストも発生し、オンライン タスクに影響を与える不注意による誤動作により、データ エンジニアが非常に簡単に誤動作を引き起こす可能性があります。問題を恐れ、非効率なタスクを管理する勇気がなく、管理する気もありません。

DataWorks データ管理センターでは、無効タスクの一括処理や自動オフライン管理が可能な「エレガントオフライン」という製品機能を提供しています。まず、タスクのオフラインの影響が自動的に分析され、次にオフラインのタスクは 5 つのステップに分解されます: 遅延スケジューリング、一時停止スケジューリング、オフライン タスク、バックアップ出力テーブル、および削除出力テーブル。各ステップにはサイレント期間も設けられており、自動的に通知されます。関連する責任者または影響を受ける人。プロセス全体は「グレースケール オフライン」メカニズムに似ており、何か問題が発生してもすぐに回復し、影響を最小限に抑えることができます。

アリババの社内データチームでは、当初のオフライン業務の管理には、グループ会議の開催からコミュニケーション、オフライン業務の影響分析、オフライン計画の策定、結果をフォローするための個別のオフライン業務の実行まで、30 人の責任者が関与する 1,000 件のタスクが含まれていました。アップしますので、3~5ヶ月程度かかります。DataWorks データ管理センターの適切なオフライン機能を使用すると、管理アクションは 2 日で完了し、影響の観察は 1 週間で完了し、プロジェクトは 15 日で正式に終了します。DataWorks データ ガバナンス センターのスムーズなオフライン運用により、Alibaba の社内データ ウェアハウス チームは何万もの無効なタスクをオフラインにすることに成功し、ストレージとコンピューティングのコストを大幅に節約できました。

DataWorks Data Governance Center は DataWorks Enterprise Edition でサービスを提供しており、近い将来 Enterprise Edition のトライアル活動が開始される予定であり、製品の公式 Web サイトの情報に注目してください。

2009 年にアリババ グループ内で誕生して以来、DataWorks は、データ統合、データ開発ツール チェーン、データ ガバナンス ツール チェーン、データ消費側の分析を含むワンストップ プラットフォームとサービス製品の提唱者であり、忠実な実装者です。ワンストッププラットフォームを通じて企業向けのエンタープライズデータ資産を構築・蓄積し続けます。AI 時代において、DataWorks は過去 14 年間に大規模モデルで蓄積された製品機能を継続的に統合および革新し、企業データ フローの効率を向上させ、企業データの取得を加速するワンストップのインテリジェント データ プラットフォーム製品を企業に提供します。価値。

Microsoft、新しい「Windowsアプリ」 .NET 8を正式にGAリリース、最新LTSバージョン XiaomiはXiaomi Velaが完全にオープンソースであり、基盤となるカーネルはNuttXであることを正式に発表 Alibaba Cloud 11.12 障害の原因が明らかに:Access Key Service(アクセスKey) 例外 Vite 5 が正式にリリースされた GitHub レポート : TypeScript が Java に取って代わり、3 番目に人気のある言語になる Rust で Prettier を書き換えるために数十万ドルの報酬を提供 オープンソース作者に「プロジェクトはまだ生きていますか?」と尋ねる 非常に失礼で、失礼な バイトダンス: AI を使用して Linux カーネル パラメータ 演算子を自動的に調整する 魔法の操作: バックグラウンドでネットワークを切断し、ブロードバンド アカウントを無効化し、ユーザーに光モデムの変更を強制する
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/5583868/blog/10148350