Impala での高可用性の設計: システムの信頼性と高可用性を確保するにはどうすればよいですか?

著者: 禅とコンピュータープログラミングの芸術

Impala は、分散データ ウェアハウス (DW) 製品である Apache Hadoop のオープンソース サブプロジェクトです。元々は 2012 年に Cloudera によってサポートされました。Impala は、Apache Hive に基づく SQL クエリ エンジンです。Impala は、Hadoop テクノロジー スタック内の他のコンポーネントとともにデプロイできます。たとえば、MapReduce、Pig、または HDFS とともに使用できます。

この記事では、導入と管理の観点から Impala の高可用性ソリューションの設計に焦点を当てます。

高可用性は、サービスの品質が損なわれないようにするための IT 業界における非常に重要な仕事です。インターネット企業の爆発的な成長とビジネス量の急増に伴い、ユーザー エクスペリエンスを向上させ、効率を向上させ、コストを節約するために、同じプラットフォーム上で複数のサービスを実行する必要がある企業が増えています。この課題に対処するために、柔軟なスケーリングや迅速な配信などのクラウド コンピューティングの利点により、従来の IT 運用および保守モデルが急速に変化しています。したがって、クラウド サービス プロバイダーも顧客向けに高可用性ソリューションを開発しています。

実稼働環境で実行されているビッグ データ クラスターには通常、次の特性があります。

  • データの量は膨大です。保存されたデータの量はディスクの容量を超えます。
  • 多数の同時クエリ: 同時に最大数百万のクエリを処理します。
  • リアルタイム クエリ要件: リアルタイム クエリ リクエストに応答する必要があります。
  • 複雑なデータの依存関係: アプリケーション、データベース、外部システムにはさまざまな種類があり、これらの依存関係により、統一されたデータ モデルの維持が複雑なタスクになります。
  • スケーラビリティ要件: クラスターは、リアルタイムで変化するワークロードに対応するために、リソースを動的に増減できる必要があります。

これらの特性に基づいて、高可用性ソリューションには次の特性が必要です。

  1. 可用性: クラスター全体が通常の動作を維持する必要があります。
  2. フェイルオーバー: クラスターに障害が発生した場合、クラスターを間違ったノードから別の動作中のノードに迅速に転送する必要があります。
  3. ローリング アップグレード: できる必要があります

おすすめ

転載: blog.csdn.net/universsky2015/article/details/131842923