[ODPS 新製品リリース第 1 号] DataWorks 新リリース: 拡張分析/データ モデリング Personal Edition およびその他の新機能

Alibaba Cloud の ODPS シリーズ製品は、MaxCompute、DataWorks、Hologres を中核として、ユーザーの多様化するデータのコンピューティング ニーズを解決し、ストレージ、スケジューリング、メタデータ管理における統合アーキテクチャの統合を実現し、交通、金融、科学のサポートに取り組んでいます。シーンデータの効率的な処理は、中国で最も初期に自社開発され、最も広く使用されている統合ビッグデータ プラットフォームです。

DataWorks の新しい主要機能の紹介

  • 新製品 - DataWorks 拡張分析
  • 新製品 - DataWorks Intelligent Data Modeling Personal Edition
  • 新機能 - DataWorks は ACK (Spark) での EMR をサポートします
  • 新機能 - DataWorks データのレイクへの統合
  • 新規 - DataWorks データ ガバナンス センターは EMR をサポートします

新製品

新製品 - DataWorks 拡張分析

DataWorks が DataV-Card と連携して発表したAI 強化分析製品は、データのクエリから分析、可視化、共有までをワンストップで完全に連携しますデータ レポートは 1 分で生成でき、インターネット、金融、政府機関などのさまざまな業界の顧客がデータの見解を表現し、優れたデータ ストーリーを伝えるのに役立ちます。

アプリケーションシナリオ:

  • 手順の簡素化とコストの削減:これまで、データ ウェアハウスの取得やクエリからデータの視覚化やデータ共有に至るまで、データ分析のワークフローは複数の製品にまたがる必要があり、その結果、ユーザーにとって手順が煩雑になり、製品の学習コストが高くなってしまいました。
  • 大規模なデータ クエリ: MaxCompute などのコンピューティング エンジンの強力な分析およびコンピューティング機能に基づいて、DataWorks は大規模なウェアハウス データに対して SQL クエリを直接実行できます。分析結果は、DataWorks の拡張分析で視覚化され、データ「レポート」を作成し、共有されます。企業データ分析の効率が大幅に向上します。

特徴:

  • データ クエリ: MaxCompute などの強力な分析コンピューティング機能を備えたコンピューティング エンジンに基づいて、ユーザーが大規模なウェアハウス データに対して SQL クエリを実行できるようにサポートします。究極のシンプルさと軽量性を追求するという特徴があります。
  • データ カード:カードには、共通のグラフ、ワード クラウド、その他のコンポーネントが組み込まれています。データ操作結果の視覚的な資産として、ユーザーが意見をデータ カードに記録して、パーソナライゼーションと永続性の特徴を持つ独自のデータ視覚化ナレッジ ベースを形成することをサポートします。
  • データ レポート:複数のデータ カードで構成されるデータ視覚化レポートは、カードの順序を調整し、適切なレポート トピックを選択できます。レポート リンクはさまざまな表示ニーズに適応し、さまざまな業界のユーザーが独自のデータ ビューを表現し、優れたデータ ストーリーを伝えることをサポートし、柔軟で多様です。

製品デモ デモンストレーション - DataWorks の強化された分析

パブリック データ セットを例に挙げると、SQL クエリのデータ ウェアハウス データを参照します。DataWorks の拡張分析をオンにし、グラフやテーマなどを通じてクエリ データの結果を調整し、ビジュアル データ カードとして保存します。カードには独自のメモが表示されます。データのインスピレーションとデータの選択カードはデータ レポートを構築して、独占的な個人知識ベースを形成し、ワンクリックでデータ レポートを共有します。

リンクをクリックして表示します:

新製品 - DataWorks Intelligent Data Modeling Personal Edition

DataWorks のインテリジェント データ モデリング製品は、データ ウェアハウス計画、データ標準、ディメンション モデリング、データ インジケーターの 4 つの側面からビジネスの観点からビジネス データを解釈し、データ ウェアハウスの構築を標準化と持続可能な開発に向けて進化させることができます。この製品には、小売電子商取引データ ウェアハウス インダストリ モデル テンプレートが組み込まれています。個人は、ワンクリックでテンプレートをインポートできます。DataWorks Intelligent Data Modeling Personal Edition の価格は 6 か月です。アクティベーション後、小売モデル テンプレートを入手できます。無料で、ドキュメントに従って学習および操作できます

アプリケーションシナリオ:

  • 数字を見つけて数字を使う:ビジネス指標における「同じ名前でも別の同義語があり、同じ名前でも別の名前がある」という問題を解決します。ビジネスに必要な数字を見つけるのは難しく、見つかった数字は使用されません。ビジネスがデータの意思決定タスクを通過できない、データの異常を解決できない、迅速に特定できない、その他のビジネス上の問題など、ユーザーの問題点につながります。
  • コストの削減:データ ウェアハウス モデリングの初期ワークロードは膨大で人件費が高くなります。オフライン モデリングの効率は低く、適切なツールが不足しています。モデル設計とデータの研究開発、データ検索、データ消費は的を絞った方法で解決できます。

特徴:

  • 機能はエンタープライズ版と一貫しており、データウェアハウス階層化/ディメンションモデリング/データインジケーターなどの機能はエンタープライズ版と同様であり、マスターアカウントのみで使用され、ユーザーの個人的な学習やモデリングのためのサービスを提供します。
  • 組み込みの無料インダストリ モデル テンプレート:データ ウェアハウス モデリングの理論と実践を組み合わせた無料の小売電子商取引モデル テンプレートを提供し、ユーザーのデータ ウェアハウス モデリングの個人的な学習を促進し、学習効率を向上させます。
  • データ開発プロセスとの統合:ワンストップのモデル設計とデータ開発、複数のモデリング手法、個々のユーザー向けのマルチエンジン モデルの実体化とモデル アーキテクチャ図の描画を迅速に完了し、ETL コードを自動生成します。

製品デモ デモンストレーション - 小売電子商取引テンプレートに基づく実践的なプロセス

Alibaba Cloud 公式 Web サイトにログインし、DataWorks Intelligent Data Modeling を開いてインダストリ モデル テンプレートを見つけます。テンプレートをロードし、データ ウェアハウスを階層的に表示し、データ ドメインを表示し、データ マートとサブジェクト ドメインを表示します。インポートされたデータを確認できます。ディメンションモデリングモデルのテンプレートから。モデルを作成するか、コード モードでモデルを変更するかを選択することもできます。モデルをデータ開発に接続するために、モデルに対応する ETL コードを、モデルによって具体化された物理テーブルを通じて自動的に生成できます。

リンクをクリックして表示します:

新しい機能

新機能 - DataWorks は ACK (Spark) での EMR をサポートします

インベントリは ECS (DataLake/Custom) およびオープンソース上の EMR に適応されています。

アプリケーションシナリオ

クラスターの切り替えまたはデュアル実行により、タスクをシームレスに移行できます。ユーザーが以前に ECS クラスターを使用していて ACK クラスターに切り替えたい場合、または両方のクラスターを同時に実行する場合、Spark タスクは両方のクラスターでスムーズに実行できます。

ビッグ データの開発、スケジューリング、分析、ガバナンス: DataWorks を開くだけでビッグ データ エコシステムを形成できます。データ統合モジュールは、データ入力、データ開発とスケジューリング、データ分析とガバナンスなどを実現でき、複数のオープンソースコンポーネントを必要とする製品機能を完成させ、企業のデータウェアハウスチームが研究開発効率の向上とエクスペリエンスの向上を達成できるように支援します。

特徴:

DataWorks は、次の機能を備えた ACK (Spark) 上の EMR を適応させます。

  • コストカット:

ACK コンテナ サービスの弾力性に基づいて、オンデマンドでコンピューティング リソースを柔軟に調整します。オンライン サービスとアプリケーションをサポートするために ACK サービスをすでに維持している場合は、今回はビッグ データ エンジン用に ACK を個別に購入する必要はありません。

EMR Spark クラスターは ACK コンテナー サービスにデプロイされ、EMR クラスターを作成するときに既存の ACK を直接選択して、ビッグ データ サービスとオンライン アプリケーション間でクラスター リソースの共有を実現します。

ACK コンテナ サービス自体は優れた柔軟な拡張機能を備えており、水平拡張、スケジュール拡張、垂直拡張のいずれであっても、さまざまな柔軟な拡張ソリューションを通じて計算のピーク期間に完全に対処し、全体的なリソースの合理的な使用とコストの削減を実現します。

  • 開発を簡素化し、スケジュールを安定させます。

基盤となるクラスターの違いを気にすることなく、Spark のネイティブ開発モデルに集中できます。

複数のスケジューリング サイクルをサポートし、超大規模で安定したスケジューリングを提供し、毎日数千万の強力なスケジュールをサポートでき、ユーザーがタスク実行の異常をタイムリーに処理し、対応する監視アラームを送信できるようにする豊富なタスクの運用および保守方法を提供します。

スケジューリングの適応と最適化は ECS スポット プリエンプティブ インスタンスに基づいています。今回、DataWorks は Spark クラスターに適応し、ACK プリエンプティブ インスタンスに基づいて特別なスケジューリングの最適化を行いました。

  • 事前の点検と事後の管理:

DataWorks データ ガバナンス センターは、豊富な検査項目を提供し、それらをビッグ データ開発プロセスに統合し、研究開発、ストレージ、コンピューティングなどのガバナンスに関する提案を網羅し、企業が継続的なデータ ガバナンスを実行し続けるのに役立つ定量化可能な健全性サブ指標を形成します。ビッグデータプロセス全体にわたる改善、ガバナンスの最適化。

オープンソースのビッグ データ コンポーネントと比較した DataWorks の利点

Alibaba Cloud のワンストップ開発および管理プラットフォームである DataWorks は、クラウド上で完全にホストされた製品であり、オープンソースのような初期の製品展開や環境展開といった面倒なプロセスを経る必要がなく、すぐに使用できます。DataWorks には、オープンソースと比較して次の利点があります。

データ統合 (DataX/Sqoop):
  • DataX に基づいてオフライン同期リンクを構築する
  • Flink に基づいてリアルタイム同期リンクを構築する
  • 多様なデータ同期ソリューションをカプセル化: データベース全体の同期、1 回限りの完全同期、定期的な増分同期などのシナリオをカバーする、多様なデータ同期ソリューションを提供します。
  • 豊富なデータ チャネル、シンプルなリンク構成、完全なネットワーク ソリューション: さまざまなデータ タイプ間でデータ同期チャネルを構築することで、データ ツールが複雑で扱いにくいものではなくなります。
開発とスケジューリング (DolphinScheduler/Airflow):
  • 豊富なアトミック タスク タイプ: DataWorks は、さまざまなコンピューティング エンジンに多様なタスク タイプを提供します。
  • スマート Web IDE + ビジュアル ワークフロー オーケストレーション: 開発者は、ビジュアルなドラッグ アンド ドロップを通じてタスク実行ワークフローを迅速に構築し、スマート Web IDE を通じてタスク コードを効率的に作成できます。
  • きめ細かいスケジューリング プラン: スケジュール頻度、再実行戦略、複雑なシナリオの依存関係など、タスク構成のための柔軟なスケジューリング プランは、非常に完全かつ詳細な機能を提供します。
  • グローバル運用保守の大画面と単一タスク運用保守の詳細: タスクがオンラインになった後、運用保守大画面と運用保守方法を通じて運用状況を監視および処理することもできます。
  • インテリジェントなベースラインが本番リンクの異常をタイムリーに捕捉します
  • データ品質機能 - ダウンストリームのダーティデータ汚染を厳密に監視および制御します
データ ガバナンス (Atalas など):
  • 包括的なメタデータ管理 (技術/ビジネス/運用メタデータなど)
  • データリネージのサポートシステム自動分析/ユーザーセルフサービスレポート
  • データディレクトリによるデータ管理の強化/データ検索効率の向上
  • 健康コンポーネントシステムとガバナンス有効性の多面的評価を提供する
  • この一連の豊富な製品機能と、機密データの効果的な識別と保護などのエコロジーが複合的な効果を形成します。

新機能 - DataWorks データのレイクへの統合

OSS/Hive へのデータのオフラインおよびリアルタイム同期

アプリケーションシナリオ:

運用および保守レベル: flink/spark ストリーミング/kafka などの運用および保守の最適化とチューニングを解決します。レイク ファイル管理: コンパクション、履歴ファイルのクリーンアップ、期限切れのパーティションのクリーンアップ、ジョブ全体の実装性と高スループットの保証、開発/デバッグ/deployment/operation メンテナンスのライフサイクルなどはすべてユーザー管理が必要ですが、これは運用と保守が難しい問題点です。

学習コスト:データベースのビンログ多様性分析には、専門知識の予備、タスクの運用と保守管理、および flink、spark、kafka などの技術エンジンのユーザーの学習コストが必要です。

特徴:

Lake OSS への DataWorks データ統合には次の機能があります。

  • MySQL はデータベース全体を Hive に同期します:インスタンス モード、フル データ、および増分フィルタリングをサポートします。増分フィルタリングは、増分を取得するための増分条件に依存します。増分条件は、MySQL VR 条件フィルタリング データを作成します。データの同期期間は設定できます。ユーザー必要に応じてデータも取得します。
  • 簡単に始めることができます:真っ白な画面のウィザードベースの操作により、ユーザーは直感的にレイクに入り、設定を同期できます。
  • 自動メタデータ統合: Alibaba Cloud DLF との緊密な統合により、レイクとの同期時に、ユーザーの介入なしでデータを自動的に DLF に挿入できます。
  • リアルタイム同期: OSS レイクへのデータのリアルタイム同期をサポートし、第 2 レベルのレイテンシを実現し、ユーザー同期中のデータ処理をサポートします。

DataWorks のインレイク OSS 機能によってサポートされるリンク機能

  • MySQL はリアルタイムでレイク OSS に入ります。

第 2 レベルの遅延を伴う、リアルタイムでの MySQL データのレイクへの増分をサポートします。

MySQL の過去の株式データをオフラインでレイクに保存できるため、同期速度を制御してソース ビジネスへの影響を回避できます。

MySQL インスタンスレベルの構成タスクをサポートし、1 つのインスタンスの下で複数のデータベースとテーブルを同時に同期します。

通常のルールに従って MySQL 側のデータベース テーブルの変更の検出をサポートし、追加されたデータベース テーブルを OSS レイク側に自動的に追加します

メタデータテーブルを自動的に作成するための OSS レイクエンドのサポート

Alibaba Cloud DLFとのドッキング、レイクへのメタデータの自動インポートをサポートし、リアルタイムで確認可能

OSS レイクエンド ストレージ パスのカスタマイズをサポート

OSS Lakeside パーティションで日付による値のカスタム割り当てをサポート

  • Kafka はリアルタイムでレイク OSS に入ります。

第 2 レベルのレイテンシでリアルタイムにレイクに入る Kafka データ増分をサポートします

データのフィルタリング、感度解除、文字列の置換など、データの途中での簡単なデータ処理をサポートします。

フィールドレベルの割り当て操作をサポート

Kafka の非構造化 JSON データをサポートし、同期プロセス中にリアルタイム データに基づいてフィールドを動的に追加できます。

メタデータテーブルを自動的に作成するための OSS レイクエンドのサポート

Alibaba Cloud DLFとのドッキング、レイクへのメタデータの自動インポートをサポートし、リアルタイムで確認可能

OSS レイクエンド ストレージ パスのカスタマイズをサポート

製品デモデモ - MySQL をレイク OSS に導入

DataWorks コンソールで新しいタスクを作成し、タスク名を入力し、ソースと宛先を選択し、デモで MySQL to OSS を選択し、レイク全体を選択し、mysql データ ソース、リソース グループ、OSS データ ソースを選択して、ユニコムのテスト。——テストが完了したら、タスク構成全体を入力できます。タスク構成で選択したソースはテーブルと同期する必要があります。外部ストレージのパスを選択すると、DIFに同期するかどうかを自動的に確認できます。——確認後、OSSパーティションを作成します。デモでは、時間で分割し、操作中に詳細パラメータを構成します。[完了] をクリックしてタスク構成全体を構成します。

リンクをクリックして表示します:

新機能 - DataWorks データ ガバナンス センターは EMR をサポートします

湖と倉庫の統合データガバナンス機能の評価と最適化

アプリケーションシナリオ:

データ量の急速な増加を背景に、効率を高めてコストを削減するために完了する必要があるさまざまなガバナンス シナリオに直面して、ユーザーは DataWorks データ ガバナンス センターを通じてストレージとコンピューティングの次元を管理できます。このシステムは、データ コンピューティング タスクの最適化、データの管理を提供します。ガバナンス機能は、ユーザーがデータ ストレージと処理コンピューティング コストを継続的に分析および最適化するのに役立ちます。

特徴:

EMR 上の DataWorks Data Governance Center には次の機能があります

  • 包括的なガバナンス健全性サブアセスメント: Alibaba Cloud E-MapReduce と DLF の接続に基づいて、全体的な状況、チーム、個人を測定するデータ ガバナンス健全性システムが形成され、ユーザーは統一基準を使用してデータの現状を明確にすることができます。ガバナンスと達成する必要があるガバナンスの目標。
  • 多次元のガバナンス問題発見: 包括的なガバナンス健全性システムは、研究開発、ストレージ、セキュリティ、品質などの複数のガバナンス次元をカバーし、各次元の下に組み込みのガバナンス項目ルールを提供するため、ユーザーはさまざまなタイプの同期タスクを継続的に発見できます。タスクのスケジュール設定、データ テーブルの問題を解決します。
  • プロアクティブなガバナンス問題の阻止: DataWorks データ開発リンクを深く開放し、ユーザーが開発タスクの送信およびリリース中に潜在的なデータ ガバナンス問題を発見できるように積極的に支援し、タイムリーに問題を防止し、データ ガバナンスとデータ開発プロセスの統合を実現します。

製品デモデモ~EMRに基づくデータコスト最適化シナリオの実践運用~

DataWorks コンソールからデータ ガバナンス センターにアクセスし、全体的なガバナンス健全性スコアと各ディメンションの健全性ステータスを理解します。ガバナンス センターを使用して分析を行い、データ リンクによるさまざまなリソースの全体的な消費量とデータ スケジュール タスクのリソースの詳細を表示します。リソースの詳細で、さまざまなタイプの EMR タスクに対してフィルターを実行して、特定のリソース消費を表示できます。——大量のリソース変更を消費するタスクに焦点を当て、ナレッジ ベースに切り替えて、現在システムでサポートされているデータ ガバナンス項目を表示し、対応するガバナンスの問題を発見します。 ——事前検査のために問題を特定し、管理の選択を構成します。対応するワークスペースに移動し、ワンクリックで対応するインテリジェンスチェックを開きます 項目 - 検査が失敗した場合は、タスクの送信を中断し、「操作チェック」をクリックしてガバナンス仕様に準拠していない内容を表示し、修復します。

リンクをクリックして表示します:

Bunが正式バージョン1.0をリリース、 JavaScriptがZigによって書かれたランタイム時の Windowsファイルエクスプローラーの魔法のバグ、1秒でパフォーマンスが向上 JetBrainsがRust IDEをリリース:RustRover PHPの最新統計:市場シェアは70%を超え、CMSの王様が Pythonプログラムを移植Mojo、パフォーマンスは 250 倍向上し、C よりも高速です 。.NET 8 のパフォーマンスは大幅に向上し、.NET 7 をはるかに上回っています。 JS の 3 つの主要なランタイム: Deno、Bun、Node.js の比較 Visual Studio Code 1.82 NetEase Fuxi は従業員の「バグのため人事に脅されて亡くなった」に応じました。 Unity エンジンは来年からゲームのインストール数に応じて課金されるようになります (ランタイム料金)。
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/5583868/blog/10110774