オープンソースのミドルウェアを使用する: クラウドコンピューティング環境のミドルウェアにはオープンソースフレームワークが採用されており、開発と展開の時間を短縮し、開発の効率と信頼性を向上させることができます。

著者: 禅とコンピュータープログラミングの芸術

1 はじめに

クラウドコンピューティングは、独自の特徴を持つ新しい分散コンピューティングモデルです。リソースの仮想化、柔軟なスケーリング、従量課金制の機能が統合されています。この新しい分散コンピューティングモデルにより、ソフトウェアエンジニアはアプリケーションを作成するときにサーバーのパフォーマンスを気にする必要がなく、アプリケーション自体にのみ集中する必要があります。同時に、クラウドプラットフォームが提供するコンピューティングリソースはオンデマンドで課金できるため、ユーザーは高価なハードウェア機器を購入する必要がありません。

クラウドコンピューティング環境のミドルウェアは通常、Apache Hadoop、Spark、Storm などのオープンソースフレームワークを使用します。これらのフレームワークは、ソフトウェア開発者とシステム管理者の開発と展開の時間を短縮し、既存のソフトウェアアーキテクチャの困難な問題を効果的に解決できます。たとえば、クラスタのコンピューティングエンジンとして Hadoop を使用すると、データ処理、データ分析、機械学習、グラフ理論の計算を簡単に実行できます。Spark は、大量のデータの並列処理の問題の解決に役立つ分散コンピューティングフレームワークを提供します。Storm は、リアルタイムのストリーム処理に使用され、インターネット規模のデータストリームの処理に適しています。

クラウドコンピューティングプラットフォームの特性をより有効に活用するために、クラウドサービスプロバイダーは独自のオープンソースソフトウェアを立ち上げることがよくあります。たとえば、Amazon AWS は、Amazon Elastic Compute Cloud (EC2) 上の Hadoop クラスターを管理するためにオープンソースの Amazon EMR (Elastic MapReduce) ソフトウェアを提供し、Microsoft Azure も、Apache Spark、Storm、HBase などのフレームワークをサポートするために Azure HDInsight を開始しました。

ただし、Google の GCE や Microsoft の Azure など、一部のエンタープライズレベルのクラウドコンピューティングプラットフォームでは、オープンソースソフトウェアは主に一般向けです。したがって、これらのプラットフォーム上でオープンソースソフトウェアを最大限に活用する方法は、大きなメリットをもたらす可能性があります。この記事では、クラウドコンピューティング環境におけるオープンソースミドルウェアの利点と、エンタープライズレベルのクラウドプラットフォームでこれらのツールを使用する方法について説明します。

2. クラウドコンピューティング環境におけるオープンソースミドルウェアの利点まず、クラウドコンピューティング環境におけるオープンソースミドルウェアは、コスト削減と開発サイクルの短縮が可能です。現時点では、オープンソースツールを使用すると、サーバーを購入してインストールする必要がなくなるため、時間と費用を節約できます。さらに、クラウドサービスプロバイダーは通常、クラウドプラットフォームサービスの商用ライセンスを提供するため、企業はクラウドサービスプロバイダーの Software-as-a-Service または Software-as-a-Service パッケージを使用できるため、導入と運用にかかる時間とエネルギーが節約されます。メンテナンス。

第 2 に、オープンソースソフトウェアは長年にわたり継続的に最適化が繰り返されており、優れた安定性とセキュリティを備えています。オープンソースソフトウェアに基づくツールは、商用ソフトウェアよりも迅速な反復更新の実装が容易であり、企業の増大するビジネスニーズに対応できます。

3 番目に、クラウドコンピューティング環境のオープンソースミドルウェアは、クラスターを自動的に展開、管理、監視できるため、複雑な運用とメンテナンスの作業を大幅に簡素化できます。クラウドサービスプロバイダーは自動化された展開スクリプトまたは API を提供するため、ユーザーはサーバーを手動でインストールまたは構成することなく、簡単な構成で必要なコンポーネントを自動的に展開できます。さらに、クラウドサービスプロバイダーは、クラスターの問題をタイムリーに発見して解決できるように、ログ収集、インジケーターの監視、障害診断など、クラスターを監視するためのさまざまなツールも提供します。

4 番目に、クラウドコンピューティング環境のオープンソースミドルウェアは柔軟性が高くなります。オープンソースソフトウェアでは、ユーザーが使用するコンポーネントのバージョン、機能設定、動作環境を自由に選択できます。たとえば、ユーザーはオープンソースソフトウェアを通じて Spark クラスターのストレージシステムを選択し、最も互換性のある HDFS または S3 システムを選択できます。さらに、オープンソースソフトウェアはさまざまなビジネスシナリオに合わせてカスタマイズおよび開発することもでき、たとえば、広告のクリック予測タスクに適した Spark MLlib モジュールを商用ソフトウェアの統計分析モジュールに置き換えることができます。

3. クラウドコンピューティング環境へのオープンソースミドルウェアの導入この章では、クラウドコンピューティング環境へのオープンソースミドルウェアの導入プロセスについて詳しく説明します。まず、この記事ではオープンソースミドルウェアの基本的な概念とアーキテクチャについて説明します。次に、一般的に使用されるオープンソースソフトウェアである Apache Hadoop、Apache Storm、Apache Spark の導入方法を紹介します。最後に、オープンソースソフトウェアの自動デプロイメントツールである Ansible の基本的な使い方を紹介します。

3.1 オープンソースミドルウェアの概要

クラウドコンピューティング環境では、オープンソースミドルウェアが広く使用されている技術分野です。このセクションでは、オープンソースミドルウェアの関連概念とアーキテクチャについて簡単に紹介します。

3.1.1 ミドルウェアの概念

ミドルウェアは、クライアントとサーバーの間に位置し、両者間の通信、調整、統合を完了する役割を担うソフトウェアシステムコンポーネントです。通常、ネットワークインターフェイス層、メッセージング層、トランザクションマネージャー、ビジネスルールエンジンなどを含む 1 つ以上のソフトウェアモジュールで構成されます。ミドルウェアには、データベース接続プール、キャッシュシステム、構成管理、セキュリティ管理、リソース割り当て、デプロイメント管理など、さまざまな側面の機能も含まれます。

クラウドコンピューティング環境では、ミドルウェアは通常、サービスとしてのインフラストラクチャ (IaaS)、サービスとしてのプラットフォーム (PaaS)、およびサービスとしてのソフトウェア (SaaS) の 3 つの部分で構成されます。次の図は、これら 3 つのサービスのアーキテクチャを示しています。

IaaS レイヤーは、コンピューティングリソース、ネットワーク、ストレージなどのインフラストラクチャサービスを提供する役割を果たします。ユーザーは、オペレーティングシステムの展開、管理、ハードウェアの構成、ソフトウェア、ハードウェア、ネットワークなどの保守など、サーバーを自分で構成および管理できます。

PaaS 層は、ソフトウェア開発環境、ミドルウェア動作環境、データベースおよびその他の動作プラットフォームサービスを提供します。ユーザーは、プラットフォームが提供するミドルウェアフレームワークを開発と展開に直接使用できます。このプラットフォームは、メッセージキュー、データベース、構成管理、キャッシュシステム、セキュリティメカニズムなどのさまざまなミドルウェアフレームワークを提供できます。

SaaS 層はアプリケーションソフトウェアサービスを提供し、ユーザーはオンラインでサービスに加入し、提供されるソフトウェアサービスを使用し、ブラウザやモバイル APP などを通じてアクセスできます。クラウドサービスプロバイダーが提供するソフトウェアには複雑なビジネスロジックが含まれる場合が多く、ユーザーはソフトウェアの詳細を考慮する必要がなく、インターフェイスを使用するだけで対応する作業を完了できます。

3.1.2 ミドルウェアアーキテクチャ

クラウドコンピューティング環境のオープンソースミドルウェアは、多くの場合、分散コンピューティングモデルに基づいて構築されます。以下の図は、一般的に使用されるオープンソースミドルウェアアーキテクチャを示しています。

データフロー

分散コンピューティングモデルでは、データはトランスポート層を通過します。従来のミドルウェアアーキテクチャでは、メッセージキューはクライアントからのデータの受信と保存に使用され、アプリケーションで処理された後、他のミドルウェアまたは最終宛先に送信されます。ただし、クラウドコンピューティング環境では、通常、データは直接接続されず、複数のノードを介して送信されるため、メッセージキューはこの種のストリーミングデータを適切に処理できません。したがって、クラウドコンピューティング環境のオープンソースミドルウェアは、通常、ストレージストリーム、イベントストリーム、RPC 呼び出しなど、データフローに他のメソッドを使用します。

分散コンピューティング

オープンソースミドルウェアの重要な機能は、分散コンピューティングモデルです。このモデルでは、ユーザーがタスクをさまざまなノードに送信し、ミドルウェアがタスクをさまざまなコンピューティングノードに割り当てて実行します。コンピューティングノード上で実行されるタスクは、データ処理、機械学習、グラフ理論計算などを分散方式で実行できます。したがって、クラウドコンピューティング環境のオープンソースミドルウェアは、大量のデータと集中的なタスクを伴うビッグデータコンピューティングの問題を効果的に解決できます。

モジュール設計

オープンソースミドルウェアのアーキテクチャは高度にモジュール化されており、典型的なミドルウェアアーキテクチャを図に示します。これは、メッセージキュー、コンピューティングエンジン、サービスエージェント、ストレージ、スケジューラ、ネットワークコンポーネントなどのいくつかのモジュールで構成されます。各モジュールは独立して展開でき、相互に連携して完全なミドルウェアシステムを形成できます。

3.2 Hadoop、Storm、Sparkの導入方法

このセクションでは、一般的に使用されるオープンソースソフトウェアである Apache Hadoop、Apache Storm、および Apache Spark の導入方法を紹介します。

Hadoopの導入方法

Hadoop は、オープンソースの分散コンピューティングフレームワークです。そのインフラストラクチャは、HDFS、MapReduce、YARN で構成されています。HDFS は、データの保存に使用される分散ファイルシステムです。MapReduce は、データ処理のための分散コンピューティングモデルです。YARN は、クラスターリソースを一元管理するためのリソース管理システムです。Hadoopの導入方法は以下のとおりです。

依存関係パッケージをインストールします。すべての Hadoop モジュールには、Java、Python、SSH などの依存関係パッケージのインストールが必要です。
hadoop-env.sh 構成ファイルを構成します。このファイルは、Hadoop の実行環境変数を定義します。
必要なフォルダーを作成します。/etc/hadoop フォルダーを作成して、すべての Hadoop 関連ファイルの構成を保存します。
core-site.xml 構成ファイルを変更します。HDFS と YARN のデフォルトアドレス、およびその他の一般的な構成項目を構成します。
hdfs-site.xml 構成ファイルを変更します。HDFS名ノードアドレス、レプリカ数、バックアップ数、ブロックサイズなどを設定します。
すべてのノードで ssh パスワード不要のログインを作成します。SSH 秘密キーピアがすべてのノードに存在することを確認してください。
mapred-site.xml 構成ファイルを構成します。リソースの割り当て、MapReduceジョブの入出力ディレクトリなどを設定します。
yarn-site.xml 構成ファイルを構成します。YARN のリソース割り当てポリシーとキュー構成情報を構成します。
マスターファイルを設定します。マスターノードのIPアドレスを指定します。
スレーブファイルを設定します。計算ノードのIPアドレスを指定します。
NameNode プロセスと DataNode プロセスを開始します。HDFS のマスターノードとコンピューティングノードでそれぞれ NameNode プロセスと DataNode プロセスを開始します。
ResourceManager プロセスと NodeManager プロセスを開始します。YARN マスターノードとコンピューティングノードでそれぞれ ResourceManager プロセスと NodeManager プロセスを開始します。
Hadoop が適切に動作しているかどうかをテストします。クライアントプログラムを起動し、Hadoop クラスターに接続し、ls、mkdir、cat などの簡単なテストコマンドを実行します。テストが成功した場合は、Hadoop クラスターが正常にデプロイされたことを意味します。

ストームの導入方法

Storm は、オープンソースの分散型リアルタイムコンピューティングプラットフォームです。その基本アーキテクチャは、Nimbus、Supervisor、Worker で構成されます。Nimbus は、トポロジのスケジュールと実行を担当する独立したクラスターです。スーパーバイザは各マシン上で実行されるプロセスであり、クラスタ内で実行されているトポロジの監視と障害回復を担当します。ワーカーは、各マシン上で実行される JVM プロセスであり、特定のタスクの実行を担当します。

Stormの導入方法は以下のとおりです。

依存関係パッケージをインストールします。Storm では、JDK、Maven、Zookeeper、およびその他の依存関係パッケージのインストールが必要です。
storm.yaml 構成ファイルを構成します。このファイルは、Storm の主要なパラメータを定義します。
必要なフォルダーを作成します。/var/log/storm フォルダーを作成して、Storm のログファイルを保存します。
storm.yaml 構成ファイルを nimbus ノードにアップロードします。
nimbus ノードで Zookeeper プロセスを開始します。
nimbus ノードで Storm メインプロセスを開始します。
スーパーバイザノードで Storm スーパーバイザプロセスを開始します。
スーパーバイザノードで Storm ワーカープロセスを開始します。
Storm が適切に動作しているかどうかをテストします。クライアントプログラムを起動し、Storm クラスターに接続し、WordCount、Bolt カウンターなどの単純なテストトポロジを実行します。テストが成功した場合は、Storm クラスターが正常にデプロイされたことを意味します。

Sparkの導入方法

Spark は、オープンソースの分散コンピューティングフレームワークです。その基本アーキテクチャは、ドライバー、エグゼキューター、クラスターマネージャー、スケジューラー、DAG スケジューラー、タスクランチャー、シャッフルサービス、および Web UI で構成されます。ドライバーは、ユーザーのジョブの実行を担当するプロセスです。Executor は、クラスターの各ノードで実行される JVM プロセスであり、ジョブの実行を担当します。クラスターマネージャーは、クラスターリソースの管理とジョブ実行のスケジュールを担当するプロセスです。

Sparkのデプロイ方法は以下のとおりです。

依存関係パッケージをインストールします。Spark では、JDK、Scala、sbt、およびその他の依存パッケージのインストールが必要です。
Spark-env.sh 構成ファイルを構成します。このファイルは、Spark の実行環境変数を定義します。
Spark-defaults.conf 構成ファイルを構成します。このファイルは、Spark ジョブのデフォルトのパラメーターを定義します。
必要なフォルダーを作成します。/usr/local/spark フォルダーを作成して、Spark 関連ファイルの構成を保存します。
SPARK_HOME 環境変数を設定します。/etc/profile または ~/.bashrc に SPARK_HOME 変数を追加して、Spark インストールディレクトリをポイントします。
JAVA_HOME 環境変数を設定します。/etc/profile または ~/.bashrc に JAVA_HOME 変数を追加して、JDK インストールディレクトリをポイントします。
SPARK_MASTER 環境変数を構成します。~/.bash_profile に SPARK_MASTER 変数を追加して、マスターノードのホスト名を指すようにします。
スーパーバイザノードの SSH パスワード不要ログインを設定します。スーパーバイザノードの SSH 秘密キーピアが存在することを確認してください。
すべてのコンピューティングノードに Spark ソフトウェアパッケージをダウンロードします。
スーパーバイザーノードで Spark マスタープロセスを開始します。
スーパーバイザーノードで Spark スレーブプロセスを開始します。
すべてのコンピューティングノードで Spark executor プロセスを開始します。
Spark が適切に動作しているかどうかをテストします。クライアントプログラムを起動し、Spark クラスターに接続し、Pi 推定や WordCount などの単純なテストジョブを実行します。テストが成功した場合は、Spark クラスターが正常にデプロイされたことを意味します。

Ansibleの基本的な使い方

Ansible は、コンピュータークラスターを自動的に展開、管理、構成するために使用できるオープンソースの IT 自動化ツールです。SSH プロトコルに基づいており、多数のリモートコンピュータのバッチ管理をサポートします。Ansibleのデプロイ方法は以下のとおりです。

ansibleをインストールします。Ansible は Python で開発されているため、最初に Python をインストールする必要があります。
sshpassをインストールします。sshpass は、シェルで ssh コマンドを実行するために使用される Linux 上のツールです。
SSHキーペアを生成します。ssh-keygen コマンドを使用してキーペアを生成します。
SSH キーペアをターゲットノードにコピーします。生成されたキーペアをターゲットノードの ~/.ssh/ ディレクトリにコピーします。
ansible Playbook ファイルでターゲットノード情報を構成します。ターゲットノードの IP アドレスまたはホスト名をリストするようにインベントリファイルを構成します。
ansible Playbook ファイルでタスク情報を構成します。プレイブックを構成し、ソフトウェアのインストール、ユーザーの作成、ファイルのコピー、スクリプトの実行など、実行するタスクを定義します。
ansible プレイブックを実行します。ターゲットノードで ansible-playbook コマンドを実行し、指定された Playbook ファイルを実行して、ターゲットノードの自動デプロイと管理を完了します。