データベースと分散データコンピューティングプラットフォーム

データベースと分散データコンピューティングプラットフォーム

I.概要

  共通のデータベースおよびプラットフォームを計算する分散データ:のMySQL、Redisの、MySQLのHybridDB 、HBaseの(100 イル)、MongoDBの(10イル)、MemcacheDB、スパーク、Hadoopの、ハイブ、カフカ住んで、水路、zookeper、MyBatisの

  1. RDBMS:リレーショナル・データベース管理システム
  2. HybridDBのためのMySQLのオンライントランザクション(OLTP)およびオンライン分析(OLAP):リレーショナルHTAP(ハイブリッド(ハイブリッド)トランザクション/分析処理)データベースクラス
  3. HBaseのは:分散型、列指向オープンソースデータベースです。構造化されていない分散データ記憶システム、HBaseの行単位ではなく、カラムモードに。HBaseのは、低遅延のデータ・アクセスに適しています
  4. HBaseのRedisの機能で比較的類似:例えば、彼らはすべてのクラスのNoSQLデータベースに属し、支援データ片の、など
  5. HBaseの:簡単なデータの書き込みのために(例えば、「メッセージクラス」アプリケーション)と質量、単純なクエリデータ構造(例えば、「一つのクラスの詳細は、」アプリケーション)
  6. オンライン・アプリケーションのためのHBaseの例: Facebookはメッセージ、チャット、電子メールやSMSシステムなどのアプリケーションメッセージング、HBaseのに使用されている、淘宝網アリはWEB版をしたい、背景はHBaseのであり、m話しキビはHBaseのにも使用されています。 32ノードクラスタのHBaseに元から単一州のクエリシステムは、Oracle昨年の同社の携帯電話の詳細
  7. MongoDBのは:高性能データ・ストレージ・ソリューションのためのスケーラブルなWebアプリケーションを提供するために設計されたC ++言語でコンパイルされ、分散ファイル・ストレージ・データベースに基づいています
  8. MemcacheDBは:分散キー値である耐久性に優れたストレージシステム。MemcacheDBの memcachedのプロトコルのサポートが、MemcacheDBのシステムは、永続ストレージ、さMemcacheDBとMySQL MySQLは書き込みの効率を向上させるために組み合わせて使用しました
  9. フレームデータ計算:ストリーミング、オフラインコンピューティングフレームワーク:フレームライン計算のMapReduceと、メモリコンピューティングフレームワーク:スパーク。
  10. スパーク:、汎用性の高い大規模なデータがエンジンを高速処理されます
  11. Hadoopの:それは、分散システム基盤であります
  12. ハイブ:変換、ローディング(:抽出エキス-transform変換-LoadローディングETLツール)、データ抽出のためのデータウェアハウスのHadoopベースのツールです。これは、Hadoopの分析に格納されている大規模なデータの格納、クエリ、および機構への道です。下の層は、MapReduceのに基づいていますが、SQL構文に沿ったものです
  13. カフカ:それは、分散、サポートパーティション(パーティション)、複数のコピー(複製)、飼育係の調整ベースで分散型メッセージングシステムのシーンの様々なニーズを満たすために、リアルタイムで大量のデータを扱うことができます
  14. 水路は: Clouderaの高可用性、信頼性の高い、提供される分散型の大規模なログ収集、集約および伝送システムの前宛先(シンク)に、ある程度の成功を確保するために輸送中、水路を、キャッシュは、最初の意志データ(チャネル)の後、データは水路真の宛先(シンク)、ことと、あなたのキャッシュデータを削除します
  15. ZooKeeperの:分散型サービスフレームワーク。等統一ネーミングサービス、状態同期サービス、クラスタ管理、分散アプリケーション管理設定項目:飼育係は、主に、多くの場合のような分散アプリケーションに遭遇するデータ管理の問題の一部を解決するために使用されています
  16. MyBatisの:優れた永続化フレームワークをサポートするカスタムSQL、ストアドプロシージャと高度なマッピングということです。iBATISの永続化フレームワークは、SQLマップとデータアクセスオブジェクト(DAOに)が含ま

第二に、分散したデータのためのコンピューティングプラットフォーム

1、Hadoopの/のMapReduceとスパークは、オフラインデータ分析を行うことが適して最高ですが、スパークは、データの量に適用されている間にHadoopは、データの量「大」のシナリオの一つの分析に特に適している大きなシーンではありません。メモリ容量の点でクラスタ全体に対するデータの量、データの必要スパークためホールドメモリ

2、基于Flume采集到 HDFS 中的数据,MapReduce 将数据清理(选择合适的信息字段,或者根据业务需求解析源数据中的信息字段包含的信息并增加新的信息字段)之后将数据保存到 HDFS,根据 HDFS 中规整的数据按照业务需求进行数据的统计分析。

3、MapReduce 程序的编写又分为写Mapper(拉取数据)、Reducer、Job三个基本的过程。

4、Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功,能将SQL语句转变成MapReduce任务来执行。由于底层是MapReduce,与shark(改进hive中的内存管理,执行等部分)和spark相比,运行速度不佳。

5、离线型的数据处理和在线型的数据处理,基本的数据来源都是日志数据。如针对于web应用来说,则可能是用户的访问日志、用户的点击日志等

6、离线型的数据处理和在线型的数据处理架构

 

图-1 数据处理架构图

 

7、数据处理软件架构示例:

 

 

 

 

 

 

 

 

おすすめ

転載: www.cnblogs.com/yinminbo/p/11824068.html