著者: 禅とコンピュータープログラミングの芸術
1 はじめに
ビッグデータ処理は、企業で最も一般的に使用されるデータ分析手法の 1 つです。アマゾン ウェブ サービス (AWS) は、ユーザーがビッグデータを保存、処理、分析するのに役立つツールを多数提供しています。以下では、AWS でビッグデータを処理するためのいくつかの方法とテクニックを紹介します。読者の役に立つことを願っています。
この記事は、Python プログラミングのある程度の基礎があるエンジニアに適しています。Python に詳しくない場合、または AWS でのビッグデータ処理について知らない場合は、まず次の記事を読んでください。
注: 以下のコードはすべて Python3+ に基づいて記述されています。
2. 基本的な概念と用語の説明
Amazon EC2(エラスティッククラウドコンピューティング)
EC2 は Amazon が開始したエラスティック コンピューティング サービスで、ユーザーはそのプラットフォーム上に仮想マシンやコンテナ化されたアプリケーションを迅速にデプロイし、それを通じてアプリケーションと環境を自動的に構成して、従量課金制と高可用性を実現できます。
EC2 は、標準 IA アーキテクチャ サーバー、ハイパフォーマンス コンピューティング ASIC サーバー、GPU アクセラレータ カードなど、複数の種類のハードウェア上で実行できます。EC2 はユーザーに包括的な信頼性とサービス レベルの保証を提供し、構成を柔軟に調整することもできます。
Amazon S3(シンプルストレージサービス)
S3 は、静的リソースへのアクセスとストレージを提供できるオブジェクト ストレージ サービスです。写真、ビデオ、オーディオ、ファイル、バックアップなど、さまざまな種類のデータを保存するための、シンプルでスケーラブルで安全なクラウド ストレージ プラットフォームをユーザーに提供します。
S3 は、低レイテンシ、高可用性、階層化、冗長バックアップ、オフサイト レプリケーション、組み込みのバージョン管理、データ レポートと監査、その他の機能を含む、さまざまなストレージ方法をサポートしています。S3 が提供する RESTful API では、