Amazon クラウド テクノロジーにより、DHgate Group のクラウドへの移行が可能になり、クラウド上の新しいアーキテクチャが価値をもたらします

 

2004 年に設立された DHgate.com は、大手 B2B 越境電子商取引プラットフォームであり、ブランド優位性、技術優位性、運用優位性、ユーザー優位性の 4 つの側面で競争上の優位性を確立しています。越境電子商取引の成熟に伴い、業務範囲の継続的な拡大、カテゴリとチャネルの増加、および業務効率の改善、ディープマイニングおよび洞察の観点から AIGC などの業界で新テクノロジーが幅広く適用されています。 20 年近く蓄積されたビッグデータとその使用により、コスト、コンピューティング能力、効率、セキュリティの面で Amazon クラウド テクノロジーに新たな課題がもたらされます。

従来のIDCビッグデータクラスタはこれまで、高額なメンテナンスコスト、柔軟なスケーリングの実現不能、コンピューティングとストレージの結合、コンピューティング能力のボトルネックによる長い拡張サイクルなど、急速なビジネス発展に対応できない深刻な問題を抱えていました。 。

 

目標を達成すると予想されるクラウド

● インテリジェントなレイク倉庫アーキテクチャ

インテリジェントなレイクウェアハウスアーキテクチャを構築して、データ収集、送信、保管、分析、アプリケーションのプロセス全体をシームレスに接続し、データの一元的な保管と管理を実現し、データ転送効率、データ品質、信頼性、セキュリティを向上させます。データの詳細なマイニング、インテリジェントな層化、および熱分析を実行して、データの価値と利用率を向上させます。

● 洗練された運用コスト管理

クラウド リソースの洗練された運用およびコスト管理システムを確立して、リソースの使用率を向上させ、コストを削減します。業務に応じた柔軟なリソースの拡張・縮小を実現し、ビジネスの柔軟性と対応速度を向上します。クラウドネイティブのインテリジェントな階層化、自動管理、O&M 機能を利用して、O&M の効率と品質を向上させます。

●ワンストップのデータ基盤基盤

データ統合、データ開発、データ資産管理、データサービスを統合したワンストップのビッグデータプラットフォームを構築し、「高速、正確、完全、安定」のデータウェアハウスシステムを実現し、データドリブンな意思決定の目標を達成します。アルゴリズムによるビジネスの成長を実現します。このプラットフォームは、ビジネス担当者がデータをより深く理解して活用し、ビジネス上の意思決定の精度と効率を向上させるために、データ視覚化およびレポート分析ツールを提供します。

 

データ アーキテクチャと技術ソリューション

敦煌ビッグデータ (IDC) の技術コンポーネントとアーキテクチャ

1c9da7311f134bd38605f6ecf417d7f7.png

 

IDC ビッグ データ環境は、CDH、ビッグデータ オープンソースのエコロジー コンポーネント、商用ツールおよび自社開発ツールに基づいて構築されています。

データ ソース: 数百の MySQL、Oracle、および NoSQL データベース インスタンス、数万のソース テーブル (サブデータベースおよびサブテーブル)、数十テラバイトのデータを含みます。

データ バッファー: 数十億のデータベース増分データとユーザー行動ログ データが毎日リアルタイムで Kafka クラスターに送信されるため、データの高可用性が確保され、オフラインおよびリアルタイムの大規模データ分析と処理のニーズが満たされます。

オフライン コンピューティングおよびリアルタイム コンピューティング クラスター: CDH6.x を使用してビッグ データ クラスターを構築し、Cloudera Manager の助けを借りて、Hadoop クラスターを簡単に管理および展開し、視覚的な監視と障害診断を実行できます。安定した信頼性の高いオフラインおよびリアルタイム コンピューティング エンジン サービスを提供します。

OLAP エンジン: ElasticSearch、ClickHouse、StarRocks クエリ エンジンは、さまざまなアプリケーション シナリオの要件に従って構成され、買い手と売り手およびビジネス運営にオンライン クエリ サービスを提供します。

ビジネス アプリケーション: 一般的に使用されるレポートおよび視覚化ツール: Hue、Tableau、BO、自社開発の EOS システムおよびドッキング サービス インターフェイス、およびその他のビジネス アプリケーション。

データ セキュリティ: Kerberos+Sentry+Ldap が統合され、統合されたユーザー認証と認証が提供され、データ セキュリティが確保されます。その中で、Kerberos は認証プロトコルの基礎を提供し、Sentry はきめ細かい認可制御を提供し、LDAP はユーザーとグループ情報の管理機能を提供します。これらのテクノロジーを組み合わせることで、ビッグ データ クラスターのセキュリティと管理効率が大幅に向上します。

データ開発プラットフォーム: Amazon Cloud Technology のデータ開発プラットフォームは、オープンソース技術と自社開発技術の組み合わせを採用しています。このうち、タスクのスケジューリング部分はDolphinSchedulerで実装され、データ統合部分はDataXをベースに開発され、ビジュアルな構成を実現しています。さらに、Amazon Cloud Technology はデータリネージ、メタデータ、ライフサイクル管理にも焦点を当てており、対象を絞った研究開発を実施しています。

 

クラウド上の新しいアーキテクチャがもたらす価値

● 柔軟なスケーリング: Amazon Cloud Technology の EMR ストレージとコンピューティングの分離アーキテクチャに基づいて、コンピューティング層で、データ分析タスクに応じてさまざまなコンピューティング能力を柔軟にスケジュールでき、コンピューティング インスタンスの分単位のスケーリングをサポートし、IDC リソースのニーズを解決します。調達から導入、オンラインまでのプロセスに時間がかかり、事前に組み立てられたコンピューティング能力によってリソースが無駄になる可能性があります。

● パフォーマンスの向上: Amazon EMR 上の Spark ランタイムのパフォーマンスは、オープンソースの Spark に比べて約 1.7 ~ 2 倍高く、同じリソース使用量の下でジョブをより高速に実行できます。Presto はランタイムも最適化されており、そのパフォーマンスは OSS の約 2.7 倍であり、OLAP エンジンに接続された対話型のクエリと分析のメリットも得られます。

● コスト削減: Amazon EMR は、コンピューティング要件の変化に応じてクラスターを柔軟にスケールおよび調整し、ワークロードのピーク時にインスタンスを追加し、ワークロードのピーク後にインスタンスを削除できます。Amazon EMR では、複数のインスタンス グループを実行するオプションも提供しています。1 つのグループでオンデマンド インスタンスを使用して処理能力を保証し、別のグループでスポット インスタンスを使用してタスクの完了を高速化し、コストを削減できます。インスタンス タイプを利用することで、スポット インスタンス タイプの価格設定の利点。S3 のインテリジェントな階層化を適用してデータのライフサイクルを自動的に管理することで、データの読み取りおよび書き込みのパフォーマンスに影響を与えることなく、IDC と比較してストレージ コストを大幅に削減できます。

● 開発効率: Amazon EMR は、日常的なオフラインタスク、一時的なデータ分析、アドホックタスクにそれぞれ適応する常駐クラスターモードと一時クラスターモードをサポートし、高速なクラスター構築機能をサポートするフルマネージドのクラウドデータプラットフォームです。既存のビッグ データ プラットフォームと連携することで、従来の自社構築クラスターの日常的なメンテナンス作業負荷を回避し、ビッグ データ チームがテクノロジーの探索により多くの時間を費やすことができるようになります。

● プラットフォームベースのデータベース: Amazon Cloud Technology のインテリジェントなレイク ウェアハウス アーキテクチャを適用して、統合された共有可能なデータベースを提供し、従来のデータレイクとデータ ウェアハウス間のデータ移動を回避し、生データ、処理およびクリーンアップされたデータ、およびモデルを統合することはできません。ビジネス向けに、高同時実行性、正確、高性能の履歴データとリアルタイム データ クエリ サービスを実現するだけでなく、分析レポート、バッチ処理、データ マイニングなども実行します。分析ビジネス。

おすすめ

転載: blog.csdn.net/m0_71839360/article/details/130987319