フルスタックのクラウドネイティブデータ分析の時代が到来しましたが、どうすればチャンスをつかむことができますか?

2022年のGartnerの最新の傾向分析によると、データ分析はイノベーションの原点であり、企業のコア機能となり、データはますます重要になっています。IDCとデータストレージ会社のSeagateからの以前のレポートによると、私の国で生成されるデータの量は、2019年の約9.4ZBから2025年の48.6ZBに急増するでしょう。現在、データエンジニアは、ますます複雑で巨大なデータ、オフラインシナリオ/リアルタイムシナリオ/ストリーミングシナリオ、複数のデータベーステクノロジースタックの共存、対応するストレージおよびコンピューティングコストなど、さまざまな分析シナリオに直面する必要があります。多くの企業のデータチーム多くの場合、これらの膨大なデータと、基盤となるさまざまなクラスターおよびインフラストラクチャの要件に圧倒されます。

コストを削減して効率を高め、データ分析とストレージを接続し、データ分析の柔軟性を向上させ、基盤となるリソースの運用と保守のコストを削減する方法は、技術チームにとって頭痛の種になっています。

1.スマートレイクウェアハウス、データ分析の次のストップが到着しました

今日、データをナビゲートする機能は、意思決定者の「スキルチェックリスト」で最も重要な項目です。歴史は、どの業界であっても、業界で最初に新しいツールを習得することがいかに重要であるかを示しています。

初期の従来型および旧式の純粋なデータウェアハウスは、半構造化/非構造化データ処理には適していません。純粋なデータレイクはデータの保存には適していますが、トランザクション処理をサポートしておらず、データ品質を保証せず、一貫性と分離性に欠けています。 。

データ価値のエクスポートの観点から、ビッグデータの可能性は、さまざまなデータ価値プラットフォームが完全に実装された場合にのみさらに解放されます。データレイクとデータウェアハウスの間のシームレスなフローを実現するために、さまざまなレベルのデータストレージとコンピューティングを開き、データレイクの柔軟性とデータウェアハウスの成長を考慮に入れて、より多くのアプリケーションを促進します。 Amazon Cloud Technologyなどの企業向けの効果的なツール「IntelligentLakeWarehouse」アーキテクチャは、企業の顧客がビッグデータの価値を実現するプロセスを加速するのに役立つように提案されています。

革新的なテクノロジーメーカーであるAmazonCloudTechnologyを例にとると、2020年のAmazon Cloud Technology re:Invent会議で、Amazon Cloud Technologyは、データ分析やその他の関連サービスのための「スマートレイクウェアハウス」アーキテクチャを立ち上げましたが、早くも2017年にはAmazon Amazon Redshift Spectrumをリリースしたこの機能により、Amazon Redshiftは、その時点でデータレイクとデータウェアハウスを開き、データレイクとデータウェアハウス全体でデータクエリを実現できます。さらに、2021年のre:Invent会議で、Amazon Cloud Technologyはさらに一歩進んで、ストレージとコンピューティングの分離に基づいた、よりサーバーレス(サーバーレス)バージョンのデータ分析サービスを開始しました。

現在、サーバーレスアーキテクチャ(2014年にリリースされたAmazon Lambdaで表されます)は、クラウドネイティブですでに最もホットなテクノロジーカテゴリです。サーバーレスアプリケーションはイベント駆動型であり、テクノロジーに依存しないAPIまたはメッセージングを介して緩く結合されているため、開発者は基盤となるスタックを管理および保守するのではなく、本番環境でのアプリケーションの構築に集中できます。現在、サーバーレス機能の助けを借りて、データ分析サービスにより、ユーザーはデータストレージ、分析、インテリジェントアプリケーションソリューションをより便利に構築し、サーバーレスデータ分析サービスを完全に実現し、基盤となる複雑なデータの効率的な処理、循環、共有を完了することができます。

そのような技術レベルと高さを達成することは、時間の蓄積と技術の蓄積と切り離せません。「スマートレイクウェアハウス」を深く理解したいのなら、その過去と現在を理解する必要があります。Amazon Cloud Technologyによって開始されたサーバーレスデータ分析サービスは、いくつかの段階を経ていることがわかります。

(1)2006年、Amazon CloudTechnologyはAmazonS3を正式にリリースしました。これは、Amazonの最初のクラウド製品として、特定のビジネス、組織、コンプライアンスの要件を満たすために、さまざまな費用対効果の高いストレージクラスと使いやすい管理機能を提供します。今日の「スマートレイクウェアハウス」は、Amazon S3に基づいてデータレイクを構築し、データウェアハウス、ビッグデータ処理、ログ分析、湖周辺の機械学習などのデータサービスを統合することです。Amazon S3データレイクの信頼性と大容量データストレージ容量は、「スマートレイクウェアハウス」アーキテクチャ全体の効果的なアプリケーションを保証するための基盤です。ソフトウェア開発者にとって、現在サーバーレスアーキテクチャであるAmazon S3は、スケーラブルで信頼性が高く、低レイテンシのデータストレージインフラストラクチャを低コストで提供できるため、開発者は非常に少ない先行投資でクラウドコンピューティングの規模を活用できます。安定したデータインフラストラクチャと引き換えに、急速な技術革新に理想的です。

(2)Amazon Athenaは、ユーザーが標準SQLを使用してAmazonS3のデータを簡単に分析できるようにするサーバーレスインタラクティブクエリサービスです。ETLがなければ、SQLスキルを持っている人なら誰でも、データレイク内の大規模なデータセットを簡単かつ迅速に分析できます。これにより、技術者の生産性が向上します。データレイクで直接分析にSQLを使用し、クラスターを管理したくない場合、Athenaは間違いなくアジャイルでクイックスタートのオプションです。

(3)Amazon Redshiftは、SQLを使用して、データウェアハウス、運用データベース、データレイク全体の構造化データと半構造化データを分析し、データウェアハウスなどのインフラストラクチャの管理について心配することなく、迅速な洞察の獲得とビジネス結果の提供に重点を置いています。現在、サーバーレスバージョンのAmazon Redshift Serverlessは、データウェアハウスの俊敏性を高め、ユーザーがデータウェアハウスインフラストラクチャを自分でセットアップおよび管理することなく、数秒で分析を簡単に実行および拡張できるようにし、ペタバイト規模のデータ分析を可能にします。現在、多くの企業は、使いやすく、すべてのデータを分析するためにあらゆる規模で信頼できるパフォーマンスを提供し、おそらくAmazon Redshiftが他のクラウドデータウェアハウスよりも3倍の価格で高いパフォーマンスを提供するため、洞察までの時間を短縮するためにAmazonRedshiftに目を向けています。 。Amazon Redshift Serverlessは、可変ワークロード、アイドル時間のある定期的なワークロード、ピークのある定常状態のワークロードなど、コンピューティングの需要を予測するのが難しい状況に最適です。このアプローチは、アドホック分析のニーズや、クイックスタートを必要とするテストおよび開発環境にも最適です。

(4)Amazon EMRは、サーバーレスサーバーレスバージョンもリリースしました。開発者はサーバーレスアプローチを使用して、Apache Spark、Hive、Prestoなどのオープンソースビッグデータフレームワークを使用して構築されたプログラムを実行し、クラスターを構成、管理、最適化、または保護することなく、クラウドでペタバイト規模のデータ分析を実行できます。ユーザーはクラスターサイズを推測する必要はありません。AmazonEMRサーバーレスは自動のきめ細かいスケーリングを備えており、オープンソースバージョンの2倍以上の速度でパフォーマンスが最適化されたランタイムを提供します。さらに、Amazon EMRは、Spark、Hive、Presto、またはTrinoをインストールするときにデフォルトでHudiコンポーネントをインストールして、AmazonS3またはHDFSのデータをApacheParquetやApacheAvroなどのオープンフォーマットで維持できます。たとえば、Amazon EMRを使用すると、技術者はデータセットを書き直さずにParquetデータセットをHudiデータセットに変換し、既存のデータセットをAmazonS3の1TBParquetデータセットなどのApacheHudiデータセットにすばやく移行できます。ブートストラップの実行はすでにバルク挿入の5倍高速です。

理解することで、CSDNは、上記がAmazonクラウドテクノロジーとそのサーバーレスバージョンの開発と変更のほんの一部にすぎないと考えています。サーバーレスアーキテクチャであるクラウドネイティブNoSQL-AmazonDynamoDBと、2年前にサーバーレスを実現したクラウドネイティブリレーショナルデータベースAmazon Aurora Serverless v1のリリース(第2世代v2も今週リリースされました)また、探索する価値のあるテクノロジー。イノベーション。

これらのサービスのアップグレードと開発により、「スマートレイクウェアハウス」もより機敏でインテリジェントな方向に進化しています。また、データ分析の次の段階が到来したことを技術コミュニティに示しています。

QRコードをスキャンして、Amazon Cloud Technology Smart Lake Warehouseホワイトペーパーをダウンロードし、ベストプラクティスの詳細を確認してください。

2.フルスタッククラウドネイティブデータ分析サービス。データを真に「アジャイル分析」にします

「スマートレイクウェアハウス」は、構造をより重視し、データの自由な流れと集中化された統合されたガバナンスを強調していることがわかります。「スマートレイクウェアハウス」アーキテクチャは、単にレイクとウェアハウスを接続するだけでなく、レイク、ウェアハウス、および特別に構築されたデータサービスを全体に接続し、データの移動とアクセスを可能にし、データレイクとデータウェアハウスのデータをさらに実現します。データクエリ、データ分析、機械学習などのさまざまな専門サービス間をオンデマンドで移動して、顧客のさまざまなニーズを満たすための統一された継続的な全体を形成します。

Amazon Cloud Technologyの「スマートレイクウェアハウス」アーキテクチャには、柔軟な拡張、特殊な構築、データフュージョン、アジャイル分析、オープンソースなどの特徴があります。詳細には、Amazon S3データレイクストレージの高い信頼性と大容量に支えられ、データストレージリソースの弾力的なスケーリングと拡張のために、技術者はインタラクティブなどのAmazonクラウドテクノロジーの経験によって要約された具体的な製品の強みを使用しますクエリサービスAmazonAthena、クラウドビッグデータプラットフォームAmazon EMR、クラウドデータウェアハウスAmazon Redshift、データフュージョンの統合ガバナンス構造などの特別に構築されたデータ分析サービスにより、企業はコードを記述しなくてもSQLステートメントを使用できます。機械学習の経験。データ分析を実行します。このモデルは、データ担当者の技術的しきい値を大幅に削減し、より多くのデータビジネス担当者がデータを受け入れ、俊敏で高速かつ低コストのデータ分析を実現できるようにします。

「スマートレイクウェアハウス」アーキテクチャでは、クラウドネイティブのデータ分析サービスは、ストリーミングデータ分析、データレイク、Hadoopなどの一般的な分析シナリオを完全にカバーできます。これらはすべてサーバーレスです。サーバーレス分析ツールを使用すると、お客様はクラスターまたはサーバーを構成、スケーリング、または管理でき、容量構成について心配する必要がありません。これにより、お客様の差別化されていない面倒な作業を最小限に抑え、データでフルスタックの俊敏な分析を実現できます。

大量のデータとセグメント化された環境に直面して、Amazon Cloudのサーバーレス「スマートレイクウェアハウス」アーキテクチャは、使いやすさ、簡単な拡張、高性能、専用の構築、セキュリティ、インテリジェンスなどの機能を統合して、データレイクとデータウェアハウスを接続します。は、さまざまなサービスをさらにシームレスに統合して、さまざまなサービス間のデータのスムーズなフローを確保します。これにより、お客様はデータの価値を最大限に高め、イノベーションを加速し、データ主導の組織になることができます。

Amazonの技術的なレイアウトと開発パスから、フルスタックのクラウドネイティブデータ分析の時代が到来し、インテリジェントなHucangが新世代のデータプラットフォームアーキテクチャになることがわかります。インテリジェントなレイクウェアハウスの助けを借りて、データ関連の技術およびビジネス担当者は、基盤となるアーキテクチャとデータ処理テクノロジーに対する複数の制約を取り除き、マイニングデータの革新的な分析と適用に集中して、革新的な機会を発見し、獲得することができます。 。

おすすめ

転載: blog.csdn.net/csdnnews/article/details/124466923