ビッグデータの概念

コンセプトは含まれます。

  1. そして、同期データ伝送:Sqoop、OGG
  2. 分散コンピューティングフレームワーク:MapReduceの、スパーク、Streamningスパーク、FLINK
  3. データメディア:ハイブ、HBaseの、カフカ
  4. 核心:Hadoopの(HDFS + MapReduceの+ YARN)

Sqoop

RDBツールのHadoopとのデータ伝送は、実際には、コマンドラインツールである(コマンド - > MRプログラム)は、MySQL、OracleおよびHDFS、ハイブ、HBaseの間のインポートおよびエクスポートの完了。

OGG

オラクルのGoldenGate(OGG)は、ログ・データ・レプリケーション・ソフトウェアに基づく構造、又はソース抽出処理(抽出処理)を使用して、オンラインREDOログアーカイブ・ログ・データベースを読み、その情報を変更するデータのみを抽出するために解析されます例えば、DML操作 - キュー(トレイルファイル)に格納された中間形式のGoldenGateカスタムファイルに、動作を変更、削除、抽出された情報を追加します。TCP / IP経由でターゲットシステムにリサイクルキューファイル転送プロセス(トレイルファイル)。

Hadoopの

大規模なデータストレージ、ビッグデータ分析:Hadoopの分散システム・インフラストラクチャであり、高速コンピューティング及びストレージクラスタの電力を利用する、それは二つの問題を解決します。HDFSとMapReduceの:Hadoopのの2つのコアです。

  • HDFS(Hadoopの分散ファイルシステム)スケーラブル、フォールトトレラント、高性能な分散ファイルシステム、非同期レプリケーションで、読んで一度書き込みは、ストレージのために責任があります。
  • MapReduceはマップ(MAP)を含む、コンピューティングフレームワークを分散し、HDFSを計算する責任(縮小)処理を、減らします。
  • YARNリソース管理アーキテクチャー(もう一つのリソースマネージャ)は、このResourceManager(エクスプローラ)、Applica-tionMaster、ノードマネージャ(ノードマネージャ)が含まれます。

巣箱

ハイブが既に格納された構造化データを可能にするHadoopのソフトウェア、の上に構築されたデータウェアハウスでは、データの分析および処理のための同様のSQLクエリHiveQLを提供します。ハイブHiveQL文は、MapReduceジョブのシリーズに変換して実行されます。

スパーク

スパークは、MRよりも速く複雑な構造の分析のために使用し、データ処理フレームワークの周りに速度、容易さです。自体は、Java、Scalaの、パイソン、R 4つの言語のAPIを提供し、Scalaの言語を使用していますスパーク。
スパークに基づき、等が変容(中間処理プロセス)とアクションを備え、Java開発作業を行うために使用することができます(ジョブ・トリガーSparkContextジョブをサブミットし、出力)。
また、スパークSQLは、SQLベースの宣言型プログラミング・インターフェースである、また、SQLオンHadoopのツールであるスパークSQLを使用することができます。RDDにモデルに基づいて計算スパークパッケージの上の層は、データフレームのAPIを提供し、内蔵されたSQLの実行計画オプティマイザ触媒としてあなたはそれを考えることができます。

スパークストリーミング

スパークストリーミングストリーミング(リアルタイムで)バッチ算出したフレームです。基本的な原理は、第二段階のバッチは、リアルタイム・データ・ストリームを処理するために使用することができる場合間隔を短く、一定の時間間隔のバッチの入力データを処理することです。
Kafk、水路、ツイッター、ZeroMQ、を含む複数のデータソースからのデータへのアクセスをサポートしキネシスとTCPソケットは、データソースからデータを取得した後、あなたは、マップなどの使用削減、複雑なアルゴリズムを処理するために参加し、他の高度な機能することができます。最後に、処理結果は、ファイルシステム、データベース(HDFS、HBaseの)などに格納されてもよいです。

分散ストリーム処理コンピューティングフレームワーク、そのコアは、Javaで書かれており、Scalaは、データフローエンジンストリーミング分散しました。FLINKデータ平行とパイプライン方式は、任意のプログラム・データ・ストリームを実行し、バッチシステムは、ストリーム・ハンドラFLINKパイプライン動作を実行することができます。

HBaseの

HBaseのは、安価なPCサーバー上でHBaseのマスストレージクラスタ構成を建て技術を使用して、高信頼性、高性能、列指向、スケーラブルな分散ストレージシステムです。HBaseのHadoopのHDFSはファイルストレージシステムとして使用します。

おすすめ

転載: www.cnblogs.com/lknny/p/11242075.html