「スマートレイク倉庫」統合ソリューション!

[本文開始]

技術革命と産業革命の新たなラウンドが深く絡み合っているため、デジタル経済は、グローバルな要素リソースを再編成し、グローバルな経済構造を作り直し、グローバルな競争環境を変えるための重要な力になりつつあります。

このプロセスにおいて、デジタル ベースとしてのクラウドは、インフラストラクチャの役割に限定されるだけでなく、企業の継続的なイノベーションと無駄のない運用をサポートする重要な役割も果たします。

クラウドからより多くの価値を得ることができるかどうかが、企業がデジタル時代に居場所を確保し、リードし続けるかどうかの鍵となります。

クラウド ネイティブ インフラストラクチャの革新は、一連の「バタフライ効果」をもたらしました。

クラウドネイティブ技術がインターネット、金融、その他の業界で「開花」したため、クラウドネイティブインフラストラクチャは、デジタルアプリケーションシナリオの多様な実践を豊かにするだけでなく、企業開発、「スマートレイクウェアハウス」に持続可能な内生力を提供することもできます。最も重要な技術構造の 1 つです。

「スマート レイク ウェアハウス」アーキテクチャの提案者として、Amazon Cloud Technology はクラウドネイティブ データ インフラストラクチャの反復と革新を続けています。

3 月 14 日、Amazon のクラウドネイティブ データレイク S3 は 17 周年を迎えました.2023 年の Pi Day に、Amazon Cloud Technology は Amazon S3 の開発プロセスの包括的なレビューを実施し、データのより大きな価値を絶えず刺激しました.

 

01   「データウェアハウス」から「データレイク」へ

IDC の統計によると、2025 年までに、世界のデータ量は 2016 年の 16.1ZB から 10 倍の 163ZB に増加すると推定されています。

データの大量化・多様化により、データから有用な価値を得ることはますます困難になってきており、データから利益が得られなければ、データの価値は論外です。

現在、データの価値は二極化しており、1つはタイムリーな発見とリアルタイムの分析によって迅速なビジネス開発を促進し、もう1つは長期保存であり、データの背後にある隠された法則を探り、その価値を分析するためにデータを蓄積します。ビジネス開発のための参照を提供するための統一された方法。

データの新しい価値は、グロース ハッキング、レコメンデーション システム、ユーザー行動分析、AIoT によってもたらされるより多くのモデルなど、よりインテリジェントで革新的なアプリケーションを企業にもたらします。これは、IT インフラストラクチャの変化も意味します。

従来のデータ処理方法は「トリクルストリーム」のようなもので、ERP や CRM などのさまざまな業務システムが含まれており、ユーザーは「河道」を設計でき、データベースはその底にあります。

データは、中間層でデータ ウェアハウスを形成するように並べ替えられ、ビジネス インテリジェンス ツール (BI) を介して表示されます。

しかし、デジタル時代には、さまざまな動画や「川の急流」などのモバイル端末情報が大規模な膨大なデータとなり、ユーザーはそれらを整理して使用する時間がありません。

現時点では、新しいアイデアが人々のビジョンを開きました. そのような不況があり、すべてのデータが最初にそこに保存され、次に効果的なツールを介してクエリおよび処理されているとします. これがデータレイクです.

国際的な調査機関MarketsandMarketsの最新の調査レポートによると、2024年までに世界のデータレイク市場は200億米ドルを超え、201億米ドルに増加し、年平均成長率は20.6%になると予測されています。

データ ガバナンスとアプリケーション要件の急増により、データ レイクがデータ管理の重要な方法になっていることは明白な事実になったと言えます。

データ レイクの出現により、データ ウェアハウスの構築における一連の問題が解決され、データ管理のプロセスが、レイクに入力されるデータとデータ分析の 2 つの段階に簡素化されました。

データレイクは、一般的にO&Mフリーで信頼性の高いオブジェクトストレージをベースに、さまざまなデータ型のストレージに対応しています。

ユーザーにとっては、最新のデータ レイク ソリューションの助けを借りて、過去のデータ アイランドの問題を解決できるだけでなく、従来のデータ ウェアハウスやデータ分析方法とも互換性があります。

最も重要なことは、予測分析のために機械学習と組み合わせるなど、最新のアプリケーションの展開により適していることです。

02 「スマートレイク倉庫」がテクノロジーの新たな潮流に

データ レイクの概念の台頭に伴い、業界ではデータ ウェアハウスとデータ レイクを比較したり、議論したりしています。

データレイクは次世代のビッグデータプラットフォームと言われ、大手クラウドベンダーも独自のデータレイクソリューションを提案しており、一部のクラウドデータウェアハウス製品にもデータレイクとの連携機能が追加されています。

しかし、私たちの意見では、データレイクとデータウェアハウスは代替品ではなく、互いに補完し合い、補完し合うものであり、これに基づいて、「スマートレイクウェアハウス」は両者の間の良性の相互作用を十分に実現し、重要になるでしょう。未来のデータウェアハウス技術トレンドの一つ。

「スマート レイク ウェアハウス」は、データ ウェアハウス ガバナンス機能の導入により、前述のデータ レイク構築の問題を解決するだけでなく、レイク内のデータの価値をより適切にマイニングするための基盤を提供し、効率的かつ柔軟にウェアハウスを構築します。 2 つの利点が組み合わされています。

「Smart Lake Warehouse」は、従来のデータウェアハウスの管理方法とは異なり、データ開発の効率を大幅に向上させ、データ管理の手間を軽減します。

以前は、データを処理するために、シニア データ アーキテクトは、データ ウェアハウスの階層化、指標の定義からデータ マート モデルの設計まで、データ ウェアハウスの計画を定義し、その後専門的なデータに引き渡す必要がありました。ビジネス開発のためのエンジニア、そしてビジネス担当者による検証、一連の規範的ではあるが複雑なプロセスがあります。「スマート レイク ウェアハウス」の出現により、企業はビジネスに基づいて迅速に開発し、独自のデータ管理方法を柔軟に調整して計画することができます。

さらに、「スマート レイク ウェアハウス」は、ビッグ データ業界のさまざまな役割間の相互作用もより快適にします。「スマート レイク ウェアハウス」のデータ管理コンセプトに基づいて、さまざまなデータ アプリケーションの役割が互いによりよく連携し、共に発展することができます。

たとえば、データ サイエンティストは独自のデータを簡単に統合し、標準的なデータ ウェアハウス プロセスで管理できます。また、ビジネス アナリストは、独自のデータ要件を作成することもできます。

03 「スマートレイク倉庫」が孤島を壊し、データ価値の未来を描く

「スマート レイク ストレージ」に関して言えば、最も重要なサポートである Amazon S3 (Simple Storage Service) に言及する必要があります。

17 年前、Amazon Cloud Technology は初めてオブジェクト ストレージを定義した Amazon S3 サービスを開始しました。それ以来、S3 はオブジェクト ストレージの事実上の標準となり、画期的な意味を持ちます。2015 年、Amazon S3 は何兆ものオブジェクトのストレージをサポートし、1 秒あたり平均 150 万リクエストのオンライン ピーク容量を備え、99.999999999% (「イレブン ナイン」) の耐久性を持つように設計されました。

2022 年、Amazon クラウド テクノロジーは別のマイルストーンを迎えました。Amazon S3 に格納されているオブジェクトの数は 200 兆を超えており、1 秒あたり数千万のリクエストを処理できます。

Amazon Cloud Technology は、Amazon S3 からの自動コピーをサポートするために Amazon Redshift をリリースし、物理ストレージ レベルからデータ レイクとデータ ウェアハウスを接続しました。

現在、ゲーム、金融、医療、消費、インターネットなど、世界中の何万人ものユーザーが Amazon Redshift 分析データベースをデータ分析に使用しています。

10 年以上の開発の過程で、Redshift は継続的に反復されており、多くの機能と機能は企業の実際のビジネス ニーズから派生しています。

具体的には、顧客データ ウェアハウスのシナリオには、主に次の 4 つの主要なブロックが含まれます。

1 つ目は日常業務と BI 分析、2 つ目はリアルタイムのデータ ウェアハウス分析、3 つ目はクエリ、レポート、データ分析、4 つ目は機械学習と分析と予測です。

企業がデータ パイプラインを迅速に構築したい場合、Amazon Redshift は基盤となるインフラストラクチャの重要なサポートであると言えます。

Amazon Redshift と他のデータ分析アプリケーションのシームレスな統合により、ユーザーはより完璧なデータ分析体験を得ることができます。

たとえば、データを高性能な形式で保存したり、ストレージをより費用対効果の高い方法でギガバイトに拡張したり、ストレージとコンピューティングの分離を実現したり、分析エンジンと機械学習エンジンの選択を実現したりできます。

2017 年には、Redshift はレイクとウェアハウスの統合を実現しており、Redshift Spectrum は S3 でオープン フォーマットのデータを直接クエリでき、もちろんデータをレイクに書き込むこともでき、データ ウェアハウスとデータ レイクのデータのシームレス性を実現しています。 .

2022 年は、Redshift のリリースから 10 周年になります。この特別な年に、Amazon Cloud Technology は珍しく年次カンファレンスに参加し、主要なアップグレードをリリースしませんでした。

代わりに、より緊密なデータ統合、ストリーミング メディア データ分析から強化されたセキュリティ アクセスまで、すべて Redshift に関連する多くの新機能が会議中に導入され、さまざまな最新アプリケーションのニーズを満たすために Redshift をエンタープライズ データ配信センターにするよう努めています。 、およびさまざまなタイプのデータを収集および整理する機能、AI 分析とその後のアプリケーションを提供する機能、およびあらゆるタイプのデータをエンタープライズ データのモダナイゼーションを加速する主要製品に取り込むことができるこの新世代のデータ ウェアハウス アーキテクチャを作成します。

全体として、Amazon クラウド テクノロジーの基礎となるテクノロジーとして、Amazon S3 は、その技術革新のための栄養素の安定した流れを提供し続けています。「スマート レイク ウェアハウス」は、Amazon S3 を中央リポジトリとしてデータ レイクを構築し、データ ウェアハウス、機械学習、ビッグデータ処理、ログなどのデータ サービスを含む、データ レイクの周りに特別な「データ サービス リング」を統合します。その後、Amazon Lake Formation、Amazon Glue、Amazon Athena、Spectrum などのツールを使用して、データレイクの構築、データの移動と管理などを実現します。

「スマート レイク ウェアハウス」アーキテクチャは、Amazon クラウド テクノロジーのデータ サービスをシームレスに統合し、データ レイクとデータ ウェアハウス間のデータ移動とアクセスを可能にし、さらにデータ レイク、データ ウェアハウス、また、データクエリ、データ分析、機械学習などのさまざまな特別に構築されたサービス間のオンデマンドの移動により、さまざまな実際のビジネスシナリオで顧客のさまざまなニーズを満たすために統一された継続的な全体を形成します。

あらゆる段階の企業は、このアジャイル アーキテクチャから迅速に恩恵を受け、データとスキルのサイロを簡単に打破し、反復的かつ漸進的な方法でデータ分析の俊敏性を獲得し、企業がデータの価値を抽出するためのイノベーション サイクルを短縮できます。

このアーキテクチャは、クラウド サービスがもたらすセキュリティ、信頼性、極端なパフォーマンス、および無制限の拡張の利点を最大限に活用し、企業がデータ アイランドを排除し、統一されたデータ基盤を作成し、データの取得からデータの適用までの完全なプロセスを開くのに役立ちます。 . クラウドでデータとインテリジェンスの緊密な統合を実現し、データの価値を十分に発揮させます。

今日、Amazon クラウド テクノロジーは、150 万人の顧客がデータ駆動型の企業になるのに役立っています。

サプライ チェーンのデジタル アップグレードを例にとると、SF Express は Amazon Cloud Technology の非常にスケーラブルなオブジェクト ストレージ サービス Amazon S3 を使用してデータ レイクを構築し、カメラ、IoT など、パーク内の多数のフロントエンド センシング デバイスを統合します。デバイス、地磁気、およびマルチモード センサー収集された情報は、データ レイクに集約されます。

Amazon S3 クラウド オブジェクト ストレージのほぼ無制限のストレージ容量に依存することで、データ駆動型の運用に強固なデータ基盤を提供します。

Amazon クラウド テクノロジーのコンピューティング、ストレージ、データ分析、コンテナ、機械学習、セキュリティなどのサービスを使用することで、SF Express のサプライ チェーンはパークの運用プロセスを改善し、運用効率を向上させました.パーク内の車両の毎日のスループットが向上しました. 40%-60%、従業員の効率が 30% 向上し、ディスパッチャとセキュリティ検査官の作業負荷が 50% 削減されます。

Amazon Cloud Technology のもう 1 つの顧客である Nasdaq も、Amazon S3 を介してデータ管理を強化しています。

市場への自動取引プラットフォームの流入により、取引速度と取引量は増加し続けました. 2014 年に、規模を拡大し、パフォーマンスを向上させ、運用コストを削減するために、Nasdaq は古いローカル展開データ ウェアハウスからAmazon Redshift クラスターによって強化されたデータ。時間が経つにつれて、ますます多くのトランザクションがデータの大幅な増加につながり、同時に、ナスダックは、エコシステムが期待するパフォーマンス基準と運用上の卓越性を引き続き達成するために、新しいアーキテクチャの計画と開発を開始しました。

2018 年、Nasdaq は Amazon S3 に新しいデータ レイクを構築することを選択しました。これにより、同社はコンピューティングとストレージを分離し、各機能を個別にスケーリングできるようになりました。Amazon Cloud Technology IAM ポリシーと Amazon S3 を統合することで、Nasdaq は複数の Amazon Cloud Technology アカウント間で包括的なアクセス制御機能を提供することもできます。さらに、Nasdaq は Amazon S3 を使用して重要な財務データを保存し、それを Amazon S3 Glacier に移動して、低コストでのアーカイブを可能にしています。

2019 年 1 月、Nasdaq は Amazon Cloud Technology のデータ ラボに参加し、4 日間の実験の間、Nasdaq は Amazon Redshift をコンピューティング レイヤーとして使用して、分析を提供する方法を再設計しました。その結果、Nasdaq は Amazon Redshift Spectrum の使用を開始しました。これは、データ ウェアハウスと Amazon S3 データ レイクに保存されたデータを直接クエリできるスマート ウェアハウス アーキテクチャを可能にする機能です。

これにより、洞察を得るまでの時間が最小限に抑えられ、Starkey Economics の研究チームがデータを分析し、データに対して複雑なクエリを実行できるようになります。パフォーマンス重視のソリューションとして始まったものは、チーム間で共有される多目的データ レイクになりました。

Amazon S3 と Amazon Redshift に基づく新しいインテリジェント レイク ウェアハウス アーキテクチャの助けを借りて、Nasdaq が 1 日に処理できるレコード数は 300 億から 700 億に簡単に跳ね上がり、データ読み込みの完了率は 90% に達しました 5時間前よりも早く。さらに、Nasdaq は、データ ウェアハウスを最適化することで、Amazon Redshift クエリを 32% 高速に実行することができました。

優れたシステム エクスペリエンスを考慮して、Nasdaq は 2022 年に米国の 6 つの主要なオプション取引市場の 1 つである Nasdaq MRX のコア取引システムを Amazon Cloud Technology に移行することに成功しました。この移行の成功は、世界の資本市場向けの次世代技術インフラストラクチャを構築するという Nasdaq の取り組みにおける重要なマイルストーンです。

データ インフラストラクチャ、統合分析、またはビジネス イノベーションのいずれであっても、データレイクとデータ ウェアハウスの接続からクロスデータベースおよびクロスドメイン共有まで、企業における Amazon Cloud Technology の「スマート レイク ウェアハウス」アーキテクチャの実践は、企業のモダナイゼーションを構築しました。このプラットフォームは、Amazon S3 や Amazon Redshift などのより多くのテクノロジーや製品と連携して、基盤となるデータ アーキテクチャのモダナイゼーションをさらに促進し、企業や業界全体により大きな価値をもたらします。

 

おすすめ

転載: blog.csdn.net/kuangfeng88588/article/details/129628138